quoc-khanh commited on
Commit
6ce06d2
·
verified ·
1 Parent(s): 03cd284

Update helpers.py

Browse files
Files changed (1) hide show
  1. helpers.py +5 -6
helpers.py CHANGED
@@ -92,15 +92,13 @@ key = "AIzaSyDJ4vIKuIBIPNHATLxnoHlagXWbsAz-vRs"
92
  # return asyncio.run(_main)
93
 
94
  def get_web_documents(base_urls=['https://nct.neu.edu.vn/']):
95
- """Tải nội dung từ danh sách URL"""
96
- docs = []
97
- for page_url in base_urls: # Kiểm tra biến urls có được định nghĩa trước đó không
98
  try:
99
  loader = DoclingLoader(page_url)
100
- # html2text = Html2TextTransformer()
101
-
102
  html = loader.load()
103
- doc = html#html2text.transform_documents(html)
104
  docs.extend(doc)
105
  except Exception as e:
106
  print(f"Lỗi khi tải {page_url}: {e}")
@@ -108,6 +106,7 @@ def get_web_documents(base_urls=['https://nct.neu.edu.vn/']):
108
  print(f"Tải thành công {len(docs)} trang.")
109
  return docs
110
 
 
111
  def log_message(messages, filename="chat_log.txt"):
112
  """Ghi lịch sử tin nhắn vào file log"""
113
  with open(filename, "a", encoding="utf-8") as f:
 
92
  # return asyncio.run(_main)
93
 
94
  def get_web_documents(base_urls=['https://nct.neu.edu.vn/']):
95
+ """Tải nội dung từ danh sách URL với thanh tiến trình"""
96
+ docs = []
97
+ for page_url in tqdm(base_urls, desc="Đang tải trang", unit="url"):
98
  try:
99
  loader = DoclingLoader(page_url)
 
 
100
  html = loader.load()
101
+ doc = html
102
  docs.extend(doc)
103
  except Exception as e:
104
  print(f"Lỗi khi tải {page_url}: {e}")
 
106
  print(f"Tải thành công {len(docs)} trang.")
107
  return docs
108
 
109
+
110
  def log_message(messages, filename="chat_log.txt"):
111
  """Ghi lịch sử tin nhắn vào file log"""
112
  with open(filename, "a", encoding="utf-8") as f: