Spaces:

quoc-khanh
/

chatbot4nct_test1

Sleeping

quoc-khanh commited on Feb 25

Commit

5840faa

verified ·

1 Parent(s): a29a886

Update file_loader.py

Files changed (1) hide show

file_loader.py CHANGED Viewed

@@ -9,7 +9,10 @@ from helpers import (
     get_splits,  # Xử lý file docx thành splits
     get_json_splits_only,  # Xử lý file JSON (FAQ)
     get_urls_splits,  # Xử lý dữ liệu từ web
 )
 def get_vectorstore():
     ### Xử lý tất cả các tài liệu và nhét vào database
     folder_path = "syllabus_nct_word_format/"
@@ -25,6 +28,9 @@ def get_vectorstore():
     FAQ_path = "syllabus_nct_word_format/FAQ.json"
     FAQ_splits = get_json_splits_only(FAQ_path)
     all_splits += FAQ_splits
     # Lưu vào vectorstore với nhúng từ Google GenAI
     embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")

     get_splits,  # Xử lý file docx thành splits
     get_json_splits_only,  # Xử lý file JSON (FAQ)
     get_urls_splits,  # Xử lý dữ liệu từ web
+    get_web_documents,
 )
 def get_vectorstore():
     ### Xử lý tất cả các tài liệu và nhét vào database
     folder_path = "syllabus_nct_word_format/"
     FAQ_path = "syllabus_nct_word_format/FAQ.json"
     FAQ_splits = get_json_splits_only(FAQ_path)
     all_splits += FAQ_splits
+    website_content = get_web_documents(base_url='https://nct.neu.edu.vn/')
+    all_splits += website_content
     # Lưu vào vectorstore với nhúng từ Google GenAI
     embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")