Spaces:

quoc-khanh
/

chatbot4nct_test1

Sleeping

App Files Files Community

quoc-khanh commited on Feb 26

Commit

72ee423

verified ·

1 Parent(s): 9082445

Update file_loader.py

Browse files

Files changed (1) hide show

file_loader.py +25 -4

file_loader.py CHANGED Viewed

@@ -12,6 +12,26 @@ from helpers import (
     scrape_website,  # Xử lý dữ liệu từ web
 )
 def get_vectorstore():
     ### Xử lý tất cả các tài liệu và nhét vào database
@@ -20,10 +40,11 @@ def get_vectorstore():
     all_splits = []  # Khởi tạo danh sách lưu kết quả
     print("Feeding relevent websites' contents")
-    # ['https://fda.neu.edu.vn/hoi-nghi-khoa-hoc-cong-nghe-dai-hoc-kinh-te-quoc-dan-nam-2025/']
-    # base_urls = ['https://nct.neu.edu.vn/', 'https://fsf.neu.edu.vn/', 'https://mfe.neu.edu.vn/', 'https://mis.neu.edu.vn/', 'https://fda.neu.edu.vn/', 'https://khoathongke.neu.edu.vn/', 'https://fit.neu.edu.vn/']
-    # website_contents = scrape_website(base_urls=base_urls)
-    # all_splits += website_contents
     print('Feeding .docx files')
     for i, file_path in enumerate(tqdm(docx_files, desc="Đang xử lý", unit="file")):

     scrape_website,  # Xử lý dữ liệu từ web
 )
+import json
+SCRAPED_DATA_PATH = "scraped_data.json"
+def get_scraped_data(base_urls):
+    """Tự động tải dữ liệu scrape từ file nếu có, nếu không thì scrape lại."""
+    if os.path.exists(SCRAPED_DATA_PATH):
+        print("🔄 Loading scraped website contents from file...")
+        with open(SCRAPED_DATA_PATH, "r", encoding="utf-8") as f:
+            return json.load(f)
+    print("🌍 Scraping websites...")
+    website_contents = scrape_website(base_urls)
+    # Lưu lại dữ liệu để lần sau không cần scrape
+    with open(SCRAPED_DATA_PATH, "w", encoding="utf-8") as f:
+        json.dump(website_contents, f, ensure_ascii=False, indent=4)
+    return website_contents
 def get_vectorstore():
     ### Xử lý tất cả các tài liệu và nhét vào database
     all_splits = []  # Khởi tạo danh sách lưu kết quả
     print("Feeding relevent websites' contents")
+    #
+    base_urls =['https://fda.neu.edu.vn/hoi-nghi-khoa-hoc-cong-nghe-dai-hoc-kinh-te-quoc-dan-nam-2025/']
+    # ['https://nct.neu.edu.vn/', 'https://fsf.neu.edu.vn/', 'https://mfe.neu.edu.vn/', 'https://mis.neu.edu.vn/', 'https://fda.neu.edu.vn/', 'https://khoathongke.neu.edu.vn/', 'https://fit.neu.edu.vn/']
+    website_contents = get_scraped_data(base_urls=base_urls)
+    all_splits += website_contents
     print('Feeding .docx files')
     for i, file_path in enumerate(tqdm(docx_files, desc="Đang xử lý", unit="file")):