Spaces:

LouminAI-Labs
/

ILYA_docs_RAG

Runtime error

App Files Files Community

dryouviavant commited on May 29, 2024

Commit

0d951c1

verified ·

1 Parent(s): 410bc42

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -17

app.py CHANGED Viewed

@@ -1,9 +1,9 @@
 import gradio as gr
 import os
-from langchain.vectorstores import FAISS
-from langchain.document_loaders import PyPDFLoader
-from langchain.embeddings import HuggingFaceEmbeddings
-from langchain.llms import HuggingFaceEndpoint
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.chains import ConversationalRetrievalChain
 from langchain.memory import ConversationBufferMemory
@@ -75,6 +75,13 @@ def initialize_llmchain(llm_model, temperature, max_tokens, top_k, vector_db, pr
     )
     return qa_chain
 # Initialize database
 def initialize_database(list_file_obj, progress=gr.Progress()):
     list_file_path = [x.name for x in list_file_obj if x is not None]
@@ -120,12 +127,12 @@ def conversation(qa_chain, message, history, persona_text):
     response_source2_page = response_sources[1].metadata["page"] + 1
     response_source3_page = response_sources[2].metadata["page"] + 1
     new_history = history + [(message, response_answer)]
-    return qa_chain, gr.update(value=""), new_history, response_source1, response_source1_page, response_source2, response_source2_page, response_source3, response_source3_page
 def upload_file(file_obj):
     list_file_path = []
     for idx, file in enumerate(file_obj):
-        file_path = file_obj.name
         list_file_path.append(file_path)
     return list_file_path
@@ -133,21 +140,27 @@ def demo():
     persona_text = load_persona('persona.md')
     with gr.Blocks(theme=gr.themes.Default(primary_hue="sky")) as demo:
-        vector_db = gr.State()
         qa_chain = gr.State()
-        gr.HTML("<center><h1>RAG PDF chatbot</h1><center>")
-        gr.Markdown("""<b>Query your PDF documents!</b> This AI agent is designed to perform retrieval augmented generation (RAG) on PDF documents. The app is hosted on Hugging Face Hub for the sole purpose of demonstration. <b>Please do not upload confidential documents.</b>""")
         # Interface for static pre-selected documents
         gr.Markdown("<b>Pre-Selected Documents</b>")
-        gr.Textbox(value="Document 1: ...", show_label=False, interactive=False)
-        gr.Textbox(value="Document 2: ...", show_label=False, interactive=False)
-        gr.Markdown("<b>Select Large Language Model (LLM) and Input Parameters</b>")
         llm_btn = gr.Radio(list_llm_simple, label="Available LLMs", value=list_llm_simple[0], type="index")
         slider_temperature = gr.Slider(minimum=0.01, maximum=1.0, value=0.5, step=0.1, label="Temperature", info="Controls randomness in token generation", interactive=True)
         slider_maxtokens = gr.Slider(minimum=128, maximum=9192, value=4096, step=128, label="Max New Tokens", info="Maximum number of tokens to be generated", interactive=True)
-        slider_topk = gr.Slider(minimum=1, maximum=10, value=3, step=1, label="top-k", info="Number of tokens to select the next token from", interactive=True)
         qachain_btn = gr.Button("Initialize Question Answering Chatbot")
         llm_progress = gr.Textbox(value="Not initialized", show_label=False)
@@ -168,8 +181,6 @@ def demo():
         clear_btn = gr.ClearButton([msg, chatbot], value="Clear")
         # Preprocessing events
-        db_btn = gr.Button("Create vector database")
-        db_progress = gr.Textbox(value="Not initialized", show_label=False)
         db_btn.click(initialize_database, inputs=[document], outputs=[vector_db, db_progress])
         qachain_btn.click(initialize_LLM, inputs=[llm_btn, slider_temperature, slider_maxtokens, slider_topk, vector_db], outputs=[qa_chain, llm_progress]).then(lambda: [None, "", 0, "", 0, "", 0],
@@ -178,8 +189,8 @@ def demo():
             queue=False)
         # Chatbot events
-        msg.submit(conversation, inputs=[qa_chain, msg, chatbot, persona_text], outputs=[qa_chain, msg, chatbot, doc_source1, source1_page, doc_source2, source2_page, doc_source3, source3_page], queue=False)
-        submit_btn.click(conversation, inputs=[qa_chain, msg, chatbot, persona_text], outputs=[qa_chain, msg, chatbot, doc_source1, source1_page, doc_source2, source2_page, doc_source3, source3_page], queue=False)
         clear_btn.click(lambda: [None, "", 0, "", 0, "", 0], inputs=None, outputs=[chatbot, doc_source1, source1_page, doc_source2, source2_page, doc_source3, source3_page], queue=False)
     demo.queue().launch(debug=True)

 import gradio as gr
 import os
+from langchain_community.vectorstores import FAISS
+from langchain_community.document_loaders import PyPDFLoader
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_community.llms import HuggingFaceEndpoint
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.chains import ConversationalRetrievalChain
 from langchain.memory import ConversationBufferMemory
     )
     return qa_chain
+# Pre-process and vectorize local PDFs
+def pre_process_pdfs(directory="pdfs"):
+    file_paths = [os.path.join(directory, f) for f in os.listdir(directory) if f.endswith('.pdf')]
+    doc_splits = load_doc(file_paths)
+    vector_db = create_db(doc_splits)
+    return vector_db
 # Initialize database
 def initialize_database(list_file_obj, progress=gr.Progress()):
     list_file_path = [x.name for x in list_file_obj if x is not None]
     response_source2_page = response_sources[1].metadata["page"] + 1
     response_source3_page = response_sources[2].metadata["page"] + 1
     new_history = history + [(message, response_answer)]
+    return qa_chain, gr.update(value=""), new_history, response_source1, response_source1_page, response_source2, response2_page, response_source3, source3_page
 def upload_file(file_obj):
     list_file_path = []
     for idx, file in enumerate(file_obj):
+        file_path = file.name
         list_file_path.append(file_path)
     return list_file_path
     persona_text = load_persona('persona.md')
     with gr.Blocks(theme=gr.themes.Default(primary_hue="sky")) as demo:
+        vector_db = gr.State(pre_process_pdfs("ILYA/pdfs"))  # Pre-process PDFs on initialization with correct path
         qa_chain = gr.State()
+        gr.HTML("<center><h1>RAG PDF Chatbot</h1><center>")
+        gr.Markdown("""<b>Interact with Your PDF Documents!</b> This AI agent performs retrieval-augmented generation (RAG) on PDF documents. Hosted on Hugging Face Hub for demonstration purposes. \
+        <b>Do not upload confidential documents.</b>""")
         # Interface for static pre-selected documents
         gr.Markdown("<b>Pre-Selected Documents</b>")
+        gr.Textbox(value="Document 1: Introduction to AI.pdf", show_label=False, interactive=False)
+        gr.Textbox(value="Document 2: Advanced Machine Learning.pdf", show_label=False, interactive=False)
+        gr.Markdown("<b>Upload Your PDF Documents</b>")
+        document = gr.Files(height=300, file_count="multiple", file_types=["pdf"], interactive=True, label="Upload PDF documents")
+        db_btn = gr.Button("Create vector database")
+        db_progress = gr.Textbox(value="Not initialized", show_label=False)
+        gr.Markdown("<b>Select Large Language Model (LLM) and Configure Parameters</b>")
         llm_btn = gr.Radio(list_llm_simple, label="Available LLMs", value=list_llm_simple[0], type="index")
         slider_temperature = gr.Slider(minimum=0.01, maximum=1.0, value=0.5, step=0.1, label="Temperature", info="Controls randomness in token generation", interactive=True)
         slider_maxtokens = gr.Slider(minimum=128, maximum=9192, value=4096, step=128, label="Max New Tokens", info="Maximum number of tokens to be generated", interactive=True)
+        slider_topk = gr.Slider(minimum=1, maximum=10, value=3, step=1, label="Top-K", info="Number of tokens to select the next token from", interactive=True)
         qachain_btn = gr.Button("Initialize Question Answering Chatbot")
         llm_progress = gr.Textbox(value="Not initialized", show_label=False)
         clear_btn = gr.ClearButton([msg, chatbot], value="Clear")
         # Preprocessing events
         db_btn.click(initialize_database, inputs=[document], outputs=[vector_db, db_progress])
         qachain_btn.click(initialize_LLM, inputs=[llm_btn, slider_temperature, slider_maxtokens, slider_topk, vector_db], outputs=[qa_chain, llm_progress]).then(lambda: [None, "", 0, "", 0, "", 0],
             queue=False)
         # Chatbot events
+        msg.submit(conversation, inputs=[qa_chain, msg, chatbot, gr.State(value=persona_text)], outputs=[qa_chain, msg, chatbot, doc_source1, source1_page, doc_source2, source2_page, doc_source3, source3_page], queue=False)
+        submit_btn.click(conversation, inputs=[qa_chain, msg, chatbot, gr.State(value=persona_text)], outputs=[qa_chain, msg, chatbot, doc_source1, source1_page, doc_source2, source2_page, doc_source3, source3_page], queue=False)
         clear_btn.click(lambda: [None, "", 0, "", 0, "", 0], inputs=None, outputs=[chatbot, doc_source1, source1_page, doc_source2, source2_page, doc_source3, source3_page], queue=False)
     demo.queue().launch(debug=True)