quoc-khanh commited on
Commit
5840faa
·
verified ·
1 Parent(s): a29a886

Update file_loader.py

Browse files
Files changed (1) hide show
  1. file_loader.py +6 -0
file_loader.py CHANGED
@@ -9,7 +9,10 @@ from helpers import (
9
  get_splits, # Xử lý file docx thành splits
10
  get_json_splits_only, # Xử lý file JSON (FAQ)
11
  get_urls_splits, # Xử lý dữ liệu từ web
 
12
  )
 
 
13
  def get_vectorstore():
14
  ### Xử lý tất cả các tài liệu và nhét vào database
15
  folder_path = "syllabus_nct_word_format/"
@@ -25,6 +28,9 @@ def get_vectorstore():
25
  FAQ_path = "syllabus_nct_word_format/FAQ.json"
26
  FAQ_splits = get_json_splits_only(FAQ_path)
27
  all_splits += FAQ_splits
 
 
 
28
 
29
  # Lưu vào vectorstore với nhúng từ Google GenAI
30
  embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")
 
9
  get_splits, # Xử lý file docx thành splits
10
  get_json_splits_only, # Xử lý file JSON (FAQ)
11
  get_urls_splits, # Xử lý dữ liệu từ web
12
+ get_web_documents,
13
  )
14
+
15
+
16
  def get_vectorstore():
17
  ### Xử lý tất cả các tài liệu và nhét vào database
18
  folder_path = "syllabus_nct_word_format/"
 
28
  FAQ_path = "syllabus_nct_word_format/FAQ.json"
29
  FAQ_splits = get_json_splits_only(FAQ_path)
30
  all_splits += FAQ_splits
31
+
32
+ website_content = get_web_documents(base_url='https://nct.neu.edu.vn/')
33
+ all_splits += website_content
34
 
35
  # Lưu vào vectorstore với nhúng từ Google GenAI
36
  embedding = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")