Spaces:

samim2024
/

PDF-RAG

Sleeping

App Files Files Community

samim2024 commited on Jul 20, 2024

Commit

244c875

verified ·

1 Parent(s): c222b6a

Upload 3 files

Browse files

Files changed (3) hide show

app.py +66 -0
rag.py +64 -0
requeriments.txt +6 -0

app.py ADDED Viewed

	@@ -0,0 +1,66 @@

+import os
+import tempfile
+import streamlit as st
+from streamlit_chat import message
+from rag import ChatPDF
+st.set_page_config(page_title="ChatPDF")
+def display_messages():
+    st.subheader("Chat")
+    for i, (msg, is_user) in enumerate(st.session_state["messages"]):
+        message(msg, is_user=is_user, key=str(i))
+    st.session_state["thinking_spinner"] = st.empty()
+def process_input():
+    if st.session_state["user_input"] and len(st.session_state["user_input"].strip()) > 0:
+        user_text = st.session_state["user_input"].strip()
+        with st.session_state["thinking_spinner"], st.spinner(f"Thinking"):
+            agent_text = st.session_state["assistant"].ask(user_text)
+        st.session_state["messages"].append((user_text, True))
+        st.session_state["messages"].append((agent_text, False))
+def read_and_save_file():
+    st.session_state["assistant"].clear()
+    st.session_state["messages"] = []
+    st.session_state["user_input"] = ""
+    for file in st.session_state["file_uploader"]:
+        with tempfile.NamedTemporaryFile(delete=False) as tf:
+            tf.write(file.getbuffer())
+            file_path = tf.name
+        with st.session_state["ingestion_spinner"], st.spinner(f"Ingesting {file.name}"):
+            st.session_state["assistant"].ingest(file_path)
+        os.remove(file_path)
+def page():
+    if len(st.session_state) == 0:
+        st.session_state["messages"] = []
+        st.session_state["assistant"] = ChatPDF()
+    st.header("ChatPDF")
+    st.subheader("Upload a document")
+    st.file_uploader(
+        "Upload document",
+        type=["pdf"],
+        key="file_uploader",
+        on_change=read_and_save_file,
+        label_visibility="collapsed",
+        accept_multiple_files=True,
+    )
+    st.session_state["ingestion_spinner"] = st.empty()
+    display_messages()
+    st.text_input("Message", key="user_input", on_change=process_input)
+if __name__ == "__main__":
+    page()

rag.py ADDED Viewed

	@@ -0,0 +1,64 @@

+from langchain.vectorstores import Chroma
+from langchain.chat_models import ChatOllama
+from langchain.embeddings import FastEmbedEmbeddings
+from langchain.schema.output_parser import StrOutputParser
+from langchain.document_loaders import PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.schema.runnable import RunnablePassthrough
+from langchain.prompts import PromptTemplate
+from langchain.vectorstores.utils import filter_complex_metadata
+#add new import
+from langchain_community.document_loaders.csv_loader import CSVLoader
+class ChatPDF:
+    vector_store = None
+    retriever = None
+    chain = None
+    def __init__(self):
+        self.model = ChatOllama(model="mistral")
+        self.text_splitter = RecursiveCharacterTextSplitter(chunk_size=1024, chunk_overlap=100)
+        self.prompt = PromptTemplate.from_template(
+            """
+            <s> [INST] You are an assistant for question-answering tasks. Use only the following pieces of retrieved context
+            to build an answer for the user. If you don't know the answer, just say that you don't know. Use three sentences
+             maximum and keep the answer concise. [/INST] </s>
+            [INST] Question: {question}
+            Context: {context}
+            Answer: [/INST]
+            """
+        )
+    def ingest(self, pdf_file_path: str):
+        docs = PyPDFLoader(file_path=pdf_file_path).load()
+        chunks = self.text_splitter.split_documents(docs)
+        chunks = filter_complex_metadata(chunks)
+        vector_store = Chroma.from_documents(documents=chunks, embedding=FastEmbedEmbeddings())
+        self.retriever = vector_store.as_retriever(
+            search_type="similarity_score_threshold",
+            search_kwargs={
+                "k": 3,
+                "score_threshold": 0.5,
+            },
+        )
+        self.chain = ({"context": self.retriever, "question": RunnablePassthrough()}
+                      | self.prompt
+                      | self.model
+                      | StrOutputParser())
+    def ask(self, query: str):
+        if not self.chain:
+            return "Please, add a PDF document first."
+        return self.chain.invoke(query)
+    def clear(self):
+        self.vector_store = None
+        self.retriever = None
+        self.chain = None

requeriments.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+langchain
+streamlit
+streamlit-chat
+fastembed
+chromadb
+pypdf