Spaces:

ayush7
/

nasa-sota-sattleite-rag

Sleeping

App Files Files Community

ayush7 commited on Nov 3, 2024

Commit

0b22a5d

verified ·

1 Parent(s): 35aa019

Upload 4 files

Browse files

Files changed (4) hide show

app.py +17 -0
gradio_app.py +34 -0
rag.py +53 -0
retrive.py +18 -0

app.py ADDED Viewed

	@@ -0,0 +1,17 @@

+import gradio_app
+from gradio_app import *
+# Create Gradio interface
+iface = gr.Interface(
+    fn=process_question,
+    inputs=gr.Textbox(lines=2, placeholder="Enter your question here..."),
+    outputs=[
+        gr.Textbox(label="Answer"),
+        gr.Textbox(label="Sources")
+    ],
+    title="NASA Report Q&A System",
+    description="Ask questions about the NASA reports and get answers with sources."
+)
+if __name__ == "__main__":
+    iface.launch(share=True)

gradio_app.py ADDED Viewed

	@@ -0,0 +1,34 @@

+import gradio as gr
+from retrive import create_qa_chain_openai
+from rag import process_pdfs
+from langchain_community.vectorstores import Chroma
+from langchain_community.embeddings import HuggingFaceEmbeddings
+import os
+# import key
+# OPENAI_API_KEY = key.api_key
+# from dotenv import load_dotenv
+api_key=os.environ.get("HUGGINGFACE_API_KEY")
+# Initialize embeddings and load the existing vectorstore
+embeddings = HuggingFaceEmbeddings(
+    model_name="sentence-transformers/all-mpnet-base-v2"
+)
+vectorstore = Chroma(persist_directory="./chroma_db", embedding_function=embeddings)
+# Initialize the QA chain
+qa_chain = create_qa_chain_openai(vectorstore, OPENAI_API_KEY)
+def process_question(question):
+    """Process the user's question and return the answer"""
+    result = qa_chain({"query": question})
+    # Extract answer and sources
+    answer = result['result']
+    sources = [ f"- {doc.metadata['source']}, Page {doc.metadata['page']}"+ "..." for doc in result['source_documents']]
+    return answer, "\n\nSources:\n" + "\n\n".join(sources)
+# f"- {doc.metadata['source']}, Page {doc.metadata['page']}"

rag.py ADDED Viewed

	@@ -0,0 +1,53 @@

+import os
+from langchain_community.document_loaders import PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_community.vectorstores import Chroma
+from langchain_openai import ChatOpenAI
+from langchain.chains import RetrievalQA
+from langchain_community.llms import Ollama
+from langchain.prompts import PromptTemplate  # Added this import
+from dotenv import load_dotenv
+## Load environment variables (for OpenAI API key)
+load_dotenv()
+def process_pdfs(pdf_directory):
+    print("Processing PDFs...")
+    """Process all PDFs in the specified directory and create a vector store."""
+    documents = []
+    # Load all PDFs from the directory
+    for file in os.listdir(pdf_directory):
+        if file.endswith('.pdf'):
+            print(f"Processing {file}...")
+            pdf_path = os.path.join(pdf_directory, file)
+            loader = PyPDFLoader(pdf_path)
+            documents.extend(loader.load())
+    # Split documents into chunks
+    text_splitter = RecursiveCharacterTextSplitter(
+        chunk_size=2000,
+        chunk_overlap=200,
+        length_function=len
+    )
+    splits = text_splitter.split_documents(documents)
+    # Create embeddings
+    embeddings = HuggingFaceEmbeddings(
+        model_name="sentence-transformers/all-mpnet-base-v2"
+    )
+    # Create and persist vector store
+    vectorstore = Chroma.from_documents(
+        documents=splits,
+        embedding=embeddings,
+        persist_directory="./chroma_db"
+    )
+    return vectorstore

retrive.py ADDED Viewed

	@@ -0,0 +1,18 @@

+from rag import *
+def create_qa_chain_openai(vectorstore, key):
+    """Create a question-answering chain using the vector store."""
+    # Initialize language model
+    llm = ChatOpenAI(api_key=key,temperature=0)
+    print("Querying the vector store...")
+    # Create retrieval chain
+    qa_chain = RetrievalQA.from_chain_type(
+        llm=llm,
+        chain_type="stuff",
+        retriever=vectorstore.as_retriever(search_kwargs={"k": 10}),
+        return_source_documents=True
+    )
+    return qa_chain