Spaces:

ugaray96
/

neural-search

Running

App Files Files Community

ugmSorcero commited on Sep 23, 2022

Commit

0f09d43

1 Parent(s): 1fd11ba

Audio gets deleted when changing pipelines

Browse files

Files changed (3) hide show

core/pipelines.py +12 -4
interface/components.py +2 -2
interface/utils.py +8 -0

core/pipelines.py CHANGED Viewed

@@ -25,8 +25,6 @@ def keyword_search(index="documents", split_word_length=100, audio_output=False)
       - Documents that have more lexical overlap with the query are more likely to be relevant
       - Words that occur in fewer documents are more significant than words that occur in many documents
-    :warning: **(HAYSTACK BUG) Keyword Search doesn't work if you reindex:** Please refresh page in order to reindex
     """
     document_store = InMemoryDocumentStore(index=index)
     keyword_retriever = TfidfRetriever(document_store=(document_store))
@@ -67,7 +65,7 @@ def dense_passage_retrieval(
     split_word_length=100,
     query_embedding_model="facebook/dpr-question_encoder-single-nq-base",
     passage_embedding_model="facebook/dpr-ctx_encoder-single-nq-base",
-    audio_output=False
 ):
     """
     **Dense Passage Retrieval Pipeline**
@@ -104,7 +102,7 @@ def dense_passage_retrieval(
     index_pipeline.add_node(
         document_store, name="DocumentStore", inputs=["DPRRetriever"]
     )
     if audio_output:
         doc2speech = DocumentToSpeech(
             model_name_or_path="espnet/kan-bayashi_ljspeech_vits",
@@ -123,6 +121,7 @@ def dense_passage_retrieval_ranker(
     query_embedding_model="facebook/dpr-question_encoder-single-nq-base",
     passage_embedding_model="facebook/dpr-ctx_encoder-single-nq-base",
     ranker_model="cross-encoder/ms-marco-MiniLM-L-12-v2",
 ):
     """
     **Dense Passage Retrieval Ranker Pipeline**
@@ -142,5 +141,14 @@ def dense_passage_retrieval_ranker(
     ranker = SentenceTransformersRanker(model_name_or_path=ranker_model)
     search_pipeline.add_node(ranker, name="Ranker", inputs=["DPRRetriever"])
     return search_pipeline, index_pipeline

       - Documents that have more lexical overlap with the query are more likely to be relevant
       - Words that occur in fewer documents are more significant than words that occur in many documents
     """
     document_store = InMemoryDocumentStore(index=index)
     keyword_retriever = TfidfRetriever(document_store=(document_store))
     split_word_length=100,
     query_embedding_model="facebook/dpr-question_encoder-single-nq-base",
     passage_embedding_model="facebook/dpr-ctx_encoder-single-nq-base",
+    audio_output=False,
 ):
     """
     **Dense Passage Retrieval Pipeline**
     index_pipeline.add_node(
         document_store, name="DocumentStore", inputs=["DPRRetriever"]
     )
     if audio_output:
         doc2speech = DocumentToSpeech(
             model_name_or_path="espnet/kan-bayashi_ljspeech_vits",
     query_embedding_model="facebook/dpr-question_encoder-single-nq-base",
     passage_embedding_model="facebook/dpr-ctx_encoder-single-nq-base",
     ranker_model="cross-encoder/ms-marco-MiniLM-L-12-v2",
+    audio_output=False,
 ):
     """
     **Dense Passage Retrieval Ranker Pipeline**
     ranker = SentenceTransformersRanker(model_name_or_path=ranker_model)
     search_pipeline.add_node(ranker, name="Ranker", inputs=["DPRRetriever"])
+    if audio_output:
+        doc2speech = DocumentToSpeech(
+            model_name_or_path="espnet/kan-bayashi_ljspeech_vits",
+            generated_audio_dir=Path(data_path + "audio"),
+        )
+        search_pipeline.add_node(
+            doc2speech, name="DocumentToSpeech", inputs=["Ranker"]
+        )
     return search_pipeline, index_pipeline

interface/components.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import streamlit as st
-from interface.utils import get_pipelines, extract_text_from_url, extract_text_from_file
 from interface.draw_pipelines import get_pipeline_graph
@@ -42,7 +42,7 @@ def component_select_pipeline(container):
                 "index_pipeline": index_pipeline,
                 "doc": pipeline_funcs[index_pipe].__doc__,
             }
-            st.session_state["doc_id"] = 0
 def component_show_pipeline(pipeline, pipeline_name):

 import streamlit as st
+from interface.utils import get_pipelines, extract_text_from_url, extract_text_from_file, reset_vars_data
 from interface.draw_pipelines import get_pipeline_graph
                 "index_pipeline": index_pipeline,
                 "doc": pipeline_funcs[index_pipe].__doc__,
             }
+            reset_vars_data()
 def component_show_pipeline(pipeline, pipeline_name):

interface/utils.py CHANGED Viewed

@@ -1,5 +1,8 @@
 from io import StringIO
 import core.pipelines as pipelines_functions
 from inspect import getmembers, isfunction, signature
 from newspaper import Article
 from PyPDF2 import PdfFileReader
@@ -22,6 +25,11 @@ def get_pipelines():
     ]
     return pipeline_names, pipeline_funcs, pipeline_func_parameters
 @st.experimental_memo
 def extract_text_from_url(url: str):

 from io import StringIO
+import os
+import shutil
 import core.pipelines as pipelines_functions
+from core.pipelines import data_path
 from inspect import getmembers, isfunction, signature
 from newspaper import Article
 from PyPDF2 import PdfFileReader
     ]
     return pipeline_names, pipeline_funcs, pipeline_func_parameters
+def reset_vars_data():
+    st.session_state["doc_id"] = 0
+    # Delete data files
+    shutil.rmtree(data_path)
+    os.makedirs(data_path, exist_ok=True)
 @st.experimental_memo
 def extract_text_from_url(url: str):