Spaces:
Sleeping
Sleeping
Update helpers.py
Browse files- helpers.py +5 -6
helpers.py
CHANGED
@@ -92,15 +92,13 @@ key = "AIzaSyDJ4vIKuIBIPNHATLxnoHlagXWbsAz-vRs"
|
|
92 |
# return asyncio.run(_main)
|
93 |
|
94 |
def get_web_documents(base_urls=['https://nct.neu.edu.vn/']):
|
95 |
-
"""Tải nội dung từ danh sách URL"""
|
96 |
-
docs = []
|
97 |
-
for page_url in base_urls
|
98 |
try:
|
99 |
loader = DoclingLoader(page_url)
|
100 |
-
# html2text = Html2TextTransformer()
|
101 |
-
|
102 |
html = loader.load()
|
103 |
-
doc = html
|
104 |
docs.extend(doc)
|
105 |
except Exception as e:
|
106 |
print(f"Lỗi khi tải {page_url}: {e}")
|
@@ -108,6 +106,7 @@ def get_web_documents(base_urls=['https://nct.neu.edu.vn/']):
|
|
108 |
print(f"Tải thành công {len(docs)} trang.")
|
109 |
return docs
|
110 |
|
|
|
111 |
def log_message(messages, filename="chat_log.txt"):
|
112 |
"""Ghi lịch sử tin nhắn vào file log"""
|
113 |
with open(filename, "a", encoding="utf-8") as f:
|
|
|
92 |
# return asyncio.run(_main)
|
93 |
|
94 |
def get_web_documents(base_urls=['https://nct.neu.edu.vn/']):
|
95 |
+
"""Tải nội dung từ danh sách URL với thanh tiến trình"""
|
96 |
+
docs = []
|
97 |
+
for page_url in tqdm(base_urls, desc="Đang tải trang", unit="url"):
|
98 |
try:
|
99 |
loader = DoclingLoader(page_url)
|
|
|
|
|
100 |
html = loader.load()
|
101 |
+
doc = html
|
102 |
docs.extend(doc)
|
103 |
except Exception as e:
|
104 |
print(f"Lỗi khi tải {page_url}: {e}")
|
|
|
106 |
print(f"Tải thành công {len(docs)} trang.")
|
107 |
return docs
|
108 |
|
109 |
+
|
110 |
def log_message(messages, filename="chat_log.txt"):
|
111 |
"""Ghi lịch sử tin nhắn vào file log"""
|
112 |
with open(filename, "a", encoding="utf-8") as f:
|