Spaces:

tarrasyed19472007
/

Ragpdfbot

Sleeping

App Files Files Community

tarrasyed19472007 commited on Oct 28, 2024

Commit

fd6cb76

verified ·

1 Parent(s): 4c33841

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -46

app.py CHANGED Viewed

@@ -1,57 +1,46 @@
 import streamlit as st
-from PyPDF2 import PdfReader
 from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration
-import torch
-# Load RAG model and tokenizer
-tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence")
-retriever = RagRetriever.from_pretrained("facebook/rag-sequence", use_dummy_dataset=True)
-model = RagSequenceForGeneration.from_pretrained("facebook/rag-sequence")
-# Function to process PDF
-def read_pdf(file):
-    text = ""
-    pdf_reader = PdfReader(file)
-    for page in pdf_reader.pages:
-        text += page.extract_text()
     return text
-# Function to answer the question
-def answer_question(question, context):
-    input_dict = tokenizer.prepare_seq2seq_batch(
-        src_texts=[question],
-        return_tensors="pt",
-        padding=True,
-        truncation=True
-    )
-    # Retrieve relevant documents
-    input_ids = input_dict["input_ids"]
-    context_ids = retriever(input_ids, return_tensors="pt")['input_ids']
-    # Generate answer
-    outputs = model.generate(input_ids=input_ids, context_input_ids=context_ids)
     answer = tokenizer.batch_decode(outputs, skip_special_tokens=True)
     return answer[0]
-# Streamlit frontend
-st.title("PDF Question-Answering Chatbot")
-uploaded_file = st.file_uploader("Upload a PDF file", type="pdf")
 if uploaded_file is not None:
-    # Read PDF
-    pdf_text = read_pdf(uploaded_file)
-    st.success("PDF file processed successfully.")
-    # Text area for user input
-    question = st.text_input("Ask a question about the PDF content:")
-    if question:
-        # Get the answer
-        answer = answer_question(question, pdf_text)
-        st.subheader("Answer:")
-        st.write(answer)
-# Run the application
-if __name__ == "__main__":
-    st.run()

+!pip install streamlit transformers PyPDF2 faiss-cpu
 import streamlit as st
+import PyPDF2 # Now PyPDF2 should be found
 from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration
+# Load PDF and extract text
+def load_pdf(file):
+    with open(file, "rb") as f:
+        reader = PyPDF2.PdfReader(f)
+        text = ""
+        for page in reader.pages:
+            text += page.extract_text() + "\n"
     return text
+# Initialize RAG model
+def initialize_rag_model():
+    # Load the tokenizer and model
+    tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq")
+    retriever = RagRetriever.from_pretrained("facebook/rag-sequence-nq", index_name="legacy", use_dummy_dataset=True)
+    model = RagSequenceForGeneration.from_pretrained("facebook/rag-sequence-nq")
+    return tokenizer, retriever, model
+# Process user query
+def generate_answer(query, context, tokenizer, retriever, model):
+    inputs = tokenizer(query, return_tensors="pt")
+    inputs["context_input_ids"] = retriever(context, return_tensors="pt")["input_ids"]
+    outputs = model.generate(**inputs)
     answer = tokenizer.batch_decode(outputs, skip_special_tokens=True)
     return answer[0]
+# Streamlit UI
+st.title("PDF Question-Answer Chatbot")
+uploaded_file = st.file_uploader("/content/Rag Comprehensive notes with example.pdf", type=["pdf"])
 if uploaded_file is not None:
+    text = load_pdf(uploaded_file)
+    st.write("PDF loaded successfully. You can now ask questions.")
+    # Initialize the RAG model
+    tokenizer, retriever, model = initialize_rag_model()
+    while True:
+        user_query = st.text_input("Ask a question about the PDF:")
+        if user_query:
+            answer = generate_answer(user_query, text, tokenizer, retriever, model)
+            st.write(f"Answer: {answer}")