alexkueck commited on
Commit
ee86223
·
verified ·
1 Parent(s): c186d3f

Update utils.py

Browse files
Files changed (1) hide show
  1. utils.py +6 -3
utils.py CHANGED
@@ -92,7 +92,7 @@ llm_template2 = "Fasse folgenden Text als Überschrift mit maximal 3 Worten zusa
92
 
93
  rag_template = """Nutze die folgenden Kontext (Beginnend mit dem Wort 'Kontext:') aus Teilen aus den angehängten Dokumenten, um die Frage (Beginnend mit dem Wort 'Frage: ')
94
  "am Ende zu beantworten. Wenn du die Frage aus dem folgenden Kontext nicht beantworten kannst, dann versuche eine Beantwortung aus deinen eigenen trainierten Daten zu finden.
95
- " Mache das kenntlich, ob du dich auf den hier angehängten Kontext beziehst oder ob du anhand deiner Daten antwortest.
96
  + template + "Kontext: {context} Frage: {question} """
97
 
98
  #################################################
@@ -113,6 +113,7 @@ PATH_WORK = "."
113
  CHROMA_DIR = "/chroma/kkg"
114
  CHROMA_PDF = './chroma/kkg/pdf'
115
  CHROMA_WORD = './chroma/kkg/word'
 
116
  YOUTUBE_DIR = "/youtube"
117
  HISTORY_PFAD = "/data/history"
118
 
@@ -203,15 +204,17 @@ def document_loading_splitting():
203
  # kreiere einen DirectoryLoader für jeden file type
204
  pdf_loader = create_directory_loader('.pdf', CHROMA_PDF)
205
  word_loader = create_directory_loader('.word', CHROMA_WORD)
206
-
207
 
208
  # Load the files
209
  pdf_documents = pdf_loader.load()
210
  word_documents = word_loader.load()
 
211
 
212
  #alle zusammen in docs...
213
  docs.extend(pdf_documents)
214
  docs.extend(word_documents)
 
215
 
216
  #andere loader...
217
  # Load PDF
@@ -225,7 +228,7 @@ def document_loading_splitting():
225
  docs.extend(loader.load())
226
  ################################
227
  # Document splitting
228
- text_splitter = RecursiveCharacterTextSplitter(chunk_overlap = 150, chunk_size = 1500)
229
  splits = text_splitter.split_documents(docs)
230
 
231
  return splits
 
92
 
93
  rag_template = """Nutze die folgenden Kontext (Beginnend mit dem Wort 'Kontext:') aus Teilen aus den angehängten Dokumenten, um die Frage (Beginnend mit dem Wort 'Frage: ')
94
  "am Ende zu beantworten. Wenn du die Frage aus dem folgenden Kontext nicht beantworten kannst, dann versuche eine Beantwortung aus deinen eigenen trainierten Daten zu finden.
95
+ " Mache das kenntlich, ob du dich auf den hier angehängten Kontext beziehst oder ob du anhand deiner Daten antwortest."""
96
  + template + "Kontext: {context} Frage: {question} """
97
 
98
  #################################################
 
113
  CHROMA_DIR = "/chroma/kkg"
114
  CHROMA_PDF = './chroma/kkg/pdf'
115
  CHROMA_WORD = './chroma/kkg/word'
116
+ CHROMA_EXCEL = './chroma/kkg/excel'
117
  YOUTUBE_DIR = "/youtube"
118
  HISTORY_PFAD = "/data/history"
119
 
 
204
  # kreiere einen DirectoryLoader für jeden file type
205
  pdf_loader = create_directory_loader('.pdf', CHROMA_PDF)
206
  word_loader = create_directory_loader('.word', CHROMA_WORD)
207
+ excel_loader = create_directory_loader('.excel', CHROMA_EXCEL)
208
 
209
  # Load the files
210
  pdf_documents = pdf_loader.load()
211
  word_documents = word_loader.load()
212
+ excel_documents = excel_loader.load()
213
 
214
  #alle zusammen in docs...
215
  docs.extend(pdf_documents)
216
  docs.extend(word_documents)
217
+ docs.extend(excel_documents)
218
 
219
  #andere loader...
220
  # Load PDF
 
228
  docs.extend(loader.load())
229
  ################################
230
  # Document splitting
231
+ text_splitter = RecursiveCharacterTextSplitter(chunk_overlap = 250, chunk_size = 2000)
232
  splits = text_splitter.split_documents(docs)
233
 
234
  return splits