Spaces:

agiragri
/

viti

Running

cdupland commited on Nov 29, 2024

Commit

a4aa0ab

1 Parent(s): 5a01379

Mise en place de LlamaParce pour l'extraction des informations des documents.

Files changed (5) hide show

README.md CHANGED Viewed

@@ -37,6 +37,8 @@ L'application est structurée en trois parties principales :
 - **Documents Communs** :
   Cette section permet de déposer des documents accessibles à tous les utilisateurs de l'application. Ces documents sont vectorisés et stockés dans une base de données vectorielle (voir section dédiée). Ils seront explorés lors des interactions avec l'IA.
 - **Vos Documents** :
   Chaque utilisateur peut uploader ses propres documents, qui seront pris en compte pendant sa session. Ces documents sont temporaires et ne sont accessibles que durant la session active de l'utilisateur.

 - **Documents Communs** :
   Cette section permet de déposer des documents accessibles à tous les utilisateurs de l'application. Ces documents sont vectorisés et stockés dans une base de données vectorielle (voir section dédiée). Ils seront explorés lors des interactions avec l'IA.
+  L'extraction des éléments (textes, tableaux, etc) se fait via la librairie LlamaParse, qui nécessite une clé API pour Llama Cloud.
+  Celle-ci doit être renseignée dans lma variable d'environmment **LLAMA_CLOUD_API_KEY**
 - **Vos Documents** :
   Chaque utilisateur peut uploader ses propres documents, qui seront pris en compte pendant sa session. Ces documents sont temporaires et ne sont accessibles que durant la session active de l'utilisateur.

pages/persistent_documents.py CHANGED Viewed

@@ -5,13 +5,20 @@ import streamlit as st
 def uploadToDb():
     for file in st.session_state["file_uploader_commun"]:
-        with tempfile.NamedTemporaryFile(delete=False) as tf:
-            tf.write(file.getbuffer())
-            file_path = tf.name
         with st.session_state["ingestion_spinner"], st.spinner(f"Chargement {file.name}"):
-            st.session_state["assistant"].ingestToDb(file_path, filename=file.name)
-        os.remove(file_path)
 def page():
     st.subheader("Montez des documents communs")

 def uploadToDb():
     for file in st.session_state["file_uploader_commun"]:
+        # Récupération de l'extension du fichier original
+        original_filename = file.name
+        file_extension = os.path.splitext(original_filename)[1]
+        # Créer un fichier temporaire avec la bonne extension
+        with tempfile.NamedTemporaryFile(delete=False, suffix=file_extension) as temp_file:
+            temp_file.write(file.read())
+            temp_file_path = temp_file.name
         with st.session_state["ingestion_spinner"], st.spinner(f"Chargement {file.name}"):
+            st.session_state["assistant"].ingestToDb(temp_file_path, filename=file.name)
+        os.remove(temp_file_path)
 def page():
     st.subheader("Montez des documents communs")

rag.py CHANGED Viewed

@@ -13,7 +13,7 @@ from langchain_community.vectorstores.utils import filter_complex_metadata
 from langchain_community.document_loaders.csv_loader import CSVLoader
 from util import getYamlConfig
 # load .env in local dev
 load_dotenv()
@@ -46,17 +46,21 @@ class Rag:
     def ingestToDb(self, file_path: str, filename: str):
-        docs = PyPDFLoader(file_path=file_path).load()
-        # Extract all text from the document
-        text = ""
-        for page in docs:
-            text += page.page_content
-        # Split the text into chunks
-        chunks = self.text_splitter.split_text(text)
-        return self.vector_store.addDoc(filename=filename, text_chunks=chunks, embedding=self.embedding)
     def getDbFiles(self):
         return self.vector_store.getDocs()

 from langchain_community.document_loaders.csv_loader import CSVLoader
 from util import getYamlConfig
+from llama_parse import LlamaParse
 # load .env in local dev
 load_dotenv()
     def ingestToDb(self, file_path: str, filename: str):
+        load_dotenv()
+        api_key = os.environ.get("LLAMA_CLOUD_API_KEY")
+        documents = LlamaParse(
+            api_key=api_key,
+            result_type="markdown",
+            premium_mode=True,
+        ).load_data(file_path)
+        contents = ""
+        for doc in documents:
+            contents += doc.text
+        return self.vector_store.addDoc(filename=filename, text_chunks=contents, embedding=self.embedding)
     def getDbFiles(self):
         return self.vector_store.getDocs()

requirements.txt CHANGED Viewed

@@ -19,4 +19,11 @@ langchain_mistralai
 langchain_anthropic
 llamaapi
 pyyaml
-st_copy_to_clipboard

 langchain_anthropic
 llamaapi
 pyyaml
+st_copy_to_clipboard
+llama-index
+llama-index-core
+llama-index-embeddings-openai
+llama-index-postprocessor-flag-embedding-reranker
+git+https://github.com/FlagOpen/FlagEmbedding.git
+llama-parse

vectore_store/PineconeConnector.py CHANGED Viewed

@@ -10,6 +10,8 @@ from langchain_core.documents import Document
 import unicodedata
 import time
 class PineconeConnector(ConnectorStrategy):
     def __init__(self):
@@ -57,26 +59,18 @@ class PineconeConnector(ConnectorStrategy):
             vector_store = PineconeVectorStore(index=self.index, embedding=embedding, namespace=self.namespace)
             file_name = filename.split(".")[0].replace(" ","_").replace("-","_").replace(".","_").replace("/","_").replace("\\","_").strip()
-            documents = []
-            uuids = []
-            for i, chunk in enumerate(text_chunks):
-                clean_filename = remove_non_standard_ascii(file_name)
-                uuid = f"{clean_filename}_{i}"
-                document = Document(
-                    page_content=chunk,
-                    metadata={ "filename":filename, "chunk_id":uuid },
-                )
-                uuids.append(uuid)
-                documents.append(document)
-            vector_store.add_documents(documents=documents, ids=uuids)
-            return {"filename_id":clean_filename}
         except Exception as e:
             print(e)

 import unicodedata
 import time
+from datetime import datetime
+import uuid
 class PineconeConnector(ConnectorStrategy):
     def __init__(self):
             vector_store = PineconeVectorStore(index=self.index, embedding=embedding, namespace=self.namespace)
             file_name = filename.split(".")[0].replace(" ","_").replace("-","_").replace(".","_").replace("/","_").replace("\\","_").strip()
+            file_name = remove_non_standard_ascii(file_name)
+            document = Document(
+                page_content=text_chunks,
+                metadata={ "filename":filename },
+            )
+            id = f"{file_name}_{ uuid.uuid5(uuid.NAMESPACE_DNS, str(datetime.now())) }"
+            vector_store.add_documents(documents=[document], ids=[id])
+            return {"filename_id":file_name}
         except Exception as e:
             print(e)