PDF-QA-Opensource

Sleeping

Noobian commited on Jul 19, 2023

Commit

57c9d91

1 Parent(s): c95b96a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,6 +5,8 @@ from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores.faiss import FAISS
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain import HuggingFaceHub
 from langchain import OpenAI, VectorDBQA
@@ -35,11 +37,19 @@ def pdf_to_text(pdf_file, query):
   #vector store
   vectorstore = FAISS.from_texts(texts, embeddings)
   llm = HuggingFaceHub(repo_id="google/flan-t5-xl", model_kwargs={"temperature":0, "max_length":512})
     #inference
   qa = VectorDBQA.from_chain_type(llm=llm, chain_type="stuff", vectorstore=vectorstore)
-  return qa.run(query)

 from langchain.vectorstores.faiss import FAISS
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain import HuggingFaceHub
+from langchain.document_loaders import UnstructuredPDFLoader
+from langchain.indexes import VectorstoreIndexCreator
 from langchain import OpenAI, VectorDBQA
   #vector store
   vectorstore = FAISS.from_texts(texts, embeddings)
   llm = HuggingFaceHub(repo_id="google/flan-t5-xl", model_kwargs={"temperature":0, "max_length":512})
+  loaders = UnstructuredPDFLoader(pdf_file)
+  index = VectorstoreIndexCreator(
+    embedding=HuggingFaceEmbeddings(),
+    text_splitter=CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)).from_loaders(loaders)
     #inference
   qa = VectorDBQA.from_chain_type(llm=llm, chain_type="stuff", vectorstore=vectorstore)
+  from langchain.chains import RetrievalQA
+  chain = RetrievalQA.from_chain_type(llm=llm,
+                                    chain_type="stuff",
+                                    retriever=index.vectorstore.as_retriever(),
+                                    input_key="question")
+  return chain.run(query)