Spaces:
Sleeping
Sleeping
Update file_loader.py
Browse files- file_loader.py +6 -0
file_loader.py
CHANGED
@@ -9,7 +9,10 @@ from helpers import (
|
|
9 |
get_splits, # Xử lý file docx thành splits
|
10 |
get_json_splits_only, # Xử lý file JSON (FAQ)
|
11 |
get_urls_splits, # Xử lý dữ liệu từ web
|
|
|
12 |
)
|
|
|
|
|
13 |
def get_vectorstore():
|
14 |
### Xử lý tất cả các tài liệu và nhét vào database
|
15 |
folder_path = "syllabus_nct_word_format/"
|
@@ -25,6 +28,9 @@ def get_vectorstore():
|
|
25 |
FAQ_path = "syllabus_nct_word_format/FAQ.json"
|
26 |
FAQ_splits = get_json_splits_only(FAQ_path)
|
27 |
all_splits += FAQ_splits
|
|
|
|
|
|
|
28 |
|
29 |
# Lưu vào vectorstore với nhúng từ Google GenAI
|
30 |
embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")
|
|
|
9 |
get_splits, # Xử lý file docx thành splits
|
10 |
get_json_splits_only, # Xử lý file JSON (FAQ)
|
11 |
get_urls_splits, # Xử lý dữ liệu từ web
|
12 |
+
get_web_documents,
|
13 |
)
|
14 |
+
|
15 |
+
|
16 |
def get_vectorstore():
|
17 |
### Xử lý tất cả các tài liệu và nhét vào database
|
18 |
folder_path = "syllabus_nct_word_format/"
|
|
|
28 |
FAQ_path = "syllabus_nct_word_format/FAQ.json"
|
29 |
FAQ_splits = get_json_splits_only(FAQ_path)
|
30 |
all_splits += FAQ_splits
|
31 |
+
|
32 |
+
website_content = get_web_documents(base_url='https://nct.neu.edu.vn/')
|
33 |
+
all_splits += website_content
|
34 |
|
35 |
# Lưu vào vectorstore với nhúng từ Google GenAI
|
36 |
embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")
|