Spaces:

DHEIVER
/

rag_Mistral-7B-Instruct-v0.3

Sleeping

DHEIVER commited on Mar 13

Commit

41b022e

verified ·

1 Parent(s): ff20866

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -40,12 +40,21 @@ def initialize_retriever(file_objs, persist_directory="chroma_db"):
     documents = []
     for file_obj in file_objs:
-        loader = PyPDFLoader(file_obj.name)
-        raw_docs = loader.load()
-        for doc in raw_docs:
-            doc.page_content = preprocess_text(doc.page_content)
-            doc.metadata.update({"source": os.path.basename(file_obj.name)})
-        documents.extend(raw_docs)
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=2048, chunk_overlap=128)
     splits = text_splitter.split_documents(documents)
@@ -130,6 +139,7 @@ def create_demo():
                 gr.Textbox(label="System Prompt", placeholder="Digite um prompt de sistema (opcional)", value=None)
             ],
             title="",
         )
         process_btn.click(

     documents = []
     for file_obj in file_objs:
+        # Validar se é um PDF
+        if not file_obj.name.lower().endswith('.pdf'):
+            return f"Erro: O arquivo '{file_obj.name}' não é um PDF válido. Apenas arquivos .pdf são aceitos."
+        try:
+            loader = PyPDFLoader(file_obj.name)
+            raw_docs = loader.load()
+            for doc in raw_docs:
+                doc.page_content = preprocess_text(doc.page_content)
+                doc.metadata.update({"source": os.path.basename(file_obj.name)})
+            documents.extend(raw_docs)
+        except Exception as e:
+            return f"Erro ao processar '{file_obj.name}': {str(e)}"
+    if not documents:
+        return "Nenhum conteúdo válido foi extraído dos PDFs."
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=2048, chunk_overlap=128)
     splits = text_splitter.split_documents(documents)
                 gr.Textbox(label="System Prompt", placeholder="Digite um prompt de sistema (opcional)", value=None)
             ],
             title="",
+            chatbot=gr.Chatbot(type="messages")  # Atualizar para o formato 'messages'
         )
         process_btn.click(