Spaces:

bigscience-data
/

scisearch

Paused

App Files Files Community

ola13 commited on Feb 15, 2023

Commit

014aa64

1 Parent(s): 2cc82f7

refactor

Browse files

Files changed (1) hide show

app.py +165 -177

app.py CHANGED Viewed

@@ -1,10 +1,11 @@
 import json
 import os
 import gradio as gr
 import requests
 from huggingface_hub import HfApi
-import traceback
 hf_api = HfApi()
 roots_datasets = {
@@ -54,35 +55,40 @@ def process_pii(text):
     return text
-def format_meta(result):
-    meta_html = (
-        """
-              <p class='underline-on-hover' style='font-size:12px; font-family: Arial; color:#585858; text-align: left;'>
-              <a href='{}' target='_blank'>{}</a></p>""".format(
-            result["meta"]["url"], result["meta"]["url"]
         )
-        if "meta" in result and result["meta"] is not None and "url" in result["meta"]
-        else ""
-    )
-    docid_html = get_docid_html(result["docid"])
-    return """{}
-          <p style='font-size:14px; font-family: Arial; color:#7978FF; text-align: left;'>Document ID: {}</p>
-          <p style='font-size:12px; font-family: Arial; color:MediumAquaMarine'>Language: {}</p>
-      """.format(
-        meta_html,
-        docid_html,
-        result["lang"] if lang in result else None,
-    )
-    return meta_html
-def process_results(results, highlight_terms):
-    if len(results) == 0:
-        return """<br><p style='font-family: Arial; color:Silver; text-align: center;'>
-                No results retrieved.</p><br><hr>"""
-    results_html = ""
-    for result in results:
-        tokens = result["text"].split()
         tokens_html = []
         for token in tokens:
             if token in highlight_terms:
@@ -90,172 +96,131 @@ def process_results(results, highlight_terms):
             else:
                 tokens_html.append(token)
         tokens_html = " ".join(tokens_html)
-        tokens_html = process_pii(tokens_html)
-        meta_html = format_meta(result)
-        meta_html += """
-            <p style='font-family: Arial;'>{}</p>
-            <br>
-        """.format(
-            tokens_html
-        )
-        results_html += meta_html
-    return results_html + "<hr>"
-def process_exact_match_payload(payload, query):
-    datasets = set()
-    results = payload["results"]
-    results_html = (
-        "<p style='font-family: Arial;'>Total nubmer of results: {}</p>".format(
-            payload["num_results"]
         )
     )
-    for result in results:
-        _, dataset, _ = result["docid"].split("/")
-        datasets.add(dataset)
-        text = result["text"]
-        meta_html = format_meta(result)
-        query_start = text.find(query)
-        query_end = query_start + len(query)
-        tokens_html = text[0:query_start]
-        tokens_html += "<b>{}</b>".format(text[query_start:query_end])
-        tokens_html += text[query_end:]
-        result_html = (
-            meta_html
-            + """
-            <p style='font-family: Arial;'>{}</p>
-            <br>
-        """.format(
-                tokens_html
-            )
-        )
-        results_html += result_html
-    return results_html + "<hr>", list(datasets)
-def process_bm25_match_payload(payload, language):
-    if "err" in payload:
-        if payload["err"]["type"] == "unsupported_lang":
-            detected_lang = payload["err"]["meta"]["detected_lang"]
-            return f"""
-                <p style='font-size:18px; font-family: Arial; color:MediumVioletRed; text-align: center;'>
-                Detected language <b>{detected_lang}</b> is not supported.<br>
-                Please choose a language from the dropdown or type another query.
-                </p><br><hr><br>"""
-    results = payload["results"]
-    highlight_terms = payload["highlight_terms"]
-    if language == "detect_language":
-        return (
-            (
-                (
-                    f"""<p style='font-family: Arial; color:MediumAquaMarine; text-align: center; line-height: 3em'>
-            Detected language: <b>{results[0]["lang"]}</b></p><br><hr><br>"""
-                    if len(results) > 0 and language == "detect_language"
-                    else ""
-                )
-                + process_results(results, highlight_terms)
-            ),
-            [],
-        )
-    if language == "all":
-        datasets = set()
-        get_docid_html(result["docid"])
-        results_html = ""
-        for lang, results_for_lang in results.items():
-            if len(results_for_lang) == 0:
                 results_html += f"""<p style='font-family: Arial; color:Silver; text-align: left; line-height: 3em'>
-                        No results for language: <b>{lang}</b><hr></p>"""
-                continue
-            collapsible_results = f"""
                 <details>
                     <summary style='font-family: Arial; color:MediumAquaMarine; text-align: left; line-height: 3em'>
                         Results for language: <b>{lang}</b><hr>
                     </summary>
-                    {process_results(results_for_lang, highlight_terms)}
                 </details>"""
-            results_html += collapsible_results
-            for r in results_for_lang:
-                _, dataset, _ = r["docid"].split("/")
-                datasets.add(dataset)
-        return results_html, list(datasets)
-    datasets = set()
-    for r in results:
-        _, dataset, _ = r["docid"].split("/")
-        datasets.add(dataset)
-    return process_results(results, highlight_terms), list(datasets)
-def scisearch(query, language, num_results=10):
-    datasets = []
-    try:
-        query = query.strip()
-        exact_search = False
-        if query.startswith('"') and query.endswith('"') and len(query) >= 2:
-            exact_search = True
-            query = query[1:-1]
-        else:
-            query = " ".join(query.split())
-        if query == "" or query is None:
-            return ""
-        post_data = {"query": query, "k": num_results}
-        if language != "detect_language":
-            post_data["lang"] = language
-        address = (
-            "http://34.105.160.81:8080" if exact_search else os.environ.get("address")
-        )
-        output = requests.post(
-            address,
-            headers={"Content-type": "application/json"},
-            data=json.dumps(post_data),
-            timeout=60,
-        )
-        payload = json.loads(output.text)
-        return (
-            process_bm25_match_payload(payload, language)
-            if not exact_search
-            else process_exact_match_payload(payload, query)
-        )
-    except Exception as e:
-        results_html = f"""
-                <p style='font-size:18px; font-family: Arial; color:MediumVioletRed; text-align: center;'>
-                Raised {type(e).__name__}</p>
-                <p style='font-size:14px; font-family: Arial; '>
-                Check if a relevant discussion already exists in the Community tab. If not, please open a discussion.
-                </p>
-            """
-        print(e)
-        print(traceback.format_exc())
-    return results_html, datasets
-def flag(query, language, num_results, issue_description):
-    try:
-        post_data = {
-            "query": query,
-            "k": num_results,
-            "flag": True,
-            "description": issue_description,
-        }
-        if language != "detect_language":
-            post_data["lang"] = language
-        output = requests.post(
-            os.environ.get("address"),
-            headers={"Content-type": "application/json"},
-            data=json.dumps(post_data),
-            timeout=120,
-        )
-        results = json.loads(output.text)
-    except:
-        print("Error flagging")
-    return ""
 description = """# <p style="text-align: center;"> 🌸 🔎 ROOTS search tool 🔍 🌸 </p>
@@ -338,15 +303,38 @@ if __name__ == "__main__":
         def submit(query, lang, k, dropdown_input):
             print("submitting", query, lang, k)
             query = query.strip()
-            if query is None or query == "":
                 return "", ""
-            results_html, datasets = scisearch(query, lang, k)
             print(datasets)
             return {
                 results: results_html,
                 flagging_form: gr.update(visible=True),
                 datasets_filter: gr.update(visible=True),
-                available_datasets: gr.Dropdown.update(choices=datasets, value=datasets),
             }
         def filter_datasets():

 import json
 import os
+import traceback
+from typing import List, Tuple
 import gradio as gr
 import requests
 from huggingface_hub import HfApi
 hf_api = HfApi()
 roots_datasets = {
     return text
+def flag(query, language, num_results, issue_description):
+    try:
+        post_data = {
+            "query": query,
+            "k": num_results,
+            "flag": True,
+            "description": issue_description,
+        }
+        if language != "detect_language":
+            post_data["lang"] = language
+        output = requests.post(
+            os.environ.get("address"),
+            headers={"Content-type": "application/json"},
+            data=json.dumps(post_data),
+            timeout=120,
         )
+        results = json.loads(output.text)
+    except:
+        print("Error flagging")
+    return ""
+def format_result(result, highlight_terms, exact_search):
+    text, url, docid = result
+    if exact_search:
+        query_start = text.find(highlight_terms)
+        query_end = query_start + len(highlight_terms)
+        tokens_html = text[0:query_start]
+        tokens_html += "<b>{}</b>".format(text[query_start:query_end])
+        tokens_html += text[query_end:]
+    else:
+        tokens = text.split()
         tokens_html = []
         for token in tokens:
             if token in highlight_terms:
             else:
                 tokens_html.append(token)
         tokens_html = " ".join(tokens_html)
+    tokens_html = process_pii(tokens_html)
+    meta_html = (
+        """<p class='underline-on-hover' style='font-size:12px; font-family: Arial; color:#585858; text-align: left;'>
+        <a href='{}' target='_blank'>{}</a></p>""".format(
+            url, url
         )
+        if url is not None
+        else ""
+    )
+    docid_html = get_docid_html(docid)
+    language = "FIXME"
+    return """{}
+          <p style='font-size:14px; font-family: Arial; color:#7978FF; text-align: left;'>Document ID: {}</p>
+          <p style='font-size:12px; font-family: Arial; color:MediumAquaMarine'>Language: {}</p>
+          <p style='font-family: Arial;'>{}</p>
+          <br>
+      """.format(
+        meta_html, docid_html, language, tokens_html
     )
+def format_result_page(
+    language, results, highlight_terms, num_results, exact_search
+) -> gr.HTML:
+    header_html = ""
+    # FIX lang detection by normalizing format on the backend
+    if language == "detect_language" and not exact_search:
+        header_html = f"""<p style='font-family: Arial; color:MediumAquaMarine; text-align: center; line-height: 3em'>
+            Detected language: <b> FIX MEEEE !!! </b></p><br><hr><br>"""
+    results_html = ""
+    for lang, results_for_lang in results.items():
+        if len(results_for_lang) == 0:
+            if exact_search:
                 results_html += f"""<p style='font-family: Arial; color:Silver; text-align: left; line-height: 3em'>
+                    No results found.<hr></p>"""
+            else:
+                results_html += f"""<p style='font-family: Arial; color:Silver; text-align: left; line-height: 3em'>
+                    No results for language: <b>{lang}</b><hr></p>"""
+            continue
+        results_for_lang_html = ""
+        for result in results_for_lang:
+            results_for_lang_html += format_result(
+                result, highlight_terms, exact_search
+            )
+        if language == "all" and not exact_search:
+            results_for_lang_html = f"""
                 <details>
                     <summary style='font-family: Arial; color:MediumAquaMarine; text-align: left; line-height: 3em'>
                         Results for language: <b>{lang}</b><hr>
                     </summary>
+                    {results_for_lang_html}
                 </details>"""
+        results_html += results_for_lang_html
+    return header_html + results_html
+def extract_results_from_payload(query, language, payload, exact_search):
+    results = payload["results"]
+    processed_results = dict()
+    highlight_terms = None
+    num_results = None
+    if exact_search:
+        highlight_terms = query
+        num_results = payload["num_results"]
+        results = {language: results}
+    else:
+        highlight_terms = payload["highlight_terms"]
+        # unify format - might be best fixed on server side
+        if language != "all":
+            results = {language: results}
+    for lang, results_for_lang in results.items():
+        processed_results[lang] = list()
+        for result in results_for_lang:
+            text = result["text"]
+            url = (
+                result["meta"]["url"]
+                if "meta" in result
+                and result["meta"] is not None
+                and "url" in result["meta"]
+                else None
+            )
+            docid = result["docid"]
+            processed_results[lang].append((text, url, docid))
+    return processed_results, highlight_terms, num_results
+def process_error(error_type):
+    if error_type == "unsupported_lang":
+        detected_lang = payload["err"]["meta"]["detected_lang"]
+        return f"""
+            <p style='font-size:18px; font-family: Arial; color:MediumVioletRed; text-align: center;'>
+            Detected language <b>{detected_lang}</b> is not supported.<br>
+            Please choose a language from the dropdown or type another query.
+            </p><br><hr><br>"""
+def extract_error_from_payload(payload):
+    if "err" in payload:
+        return payload["err"]["type"]
+    return None
+def request_payload(
+    query, language, exact_search, num_results=10
+) -> List[Tuple[str, str]]:
+    post_data = {"query": query, "k": num_results}
+    if language != "detect_language":
+        post_data["lang"] = language
+    address = "http://34.105.160.81:8080" if exact_search else os.environ.get("address")
+    output = requests.post(
+        address,
+        headers={"Content-type": "application/json"},
+        data=json.dumps(post_data),
+        timeout=60,
+    )
+    payload = json.loads(output.text)
+    return payload
 description = """# <p style="text-align: center;"> 🌸 🔎 ROOTS search tool 🔍 🌸 </p>
         def submit(query, lang, k, dropdown_input):
             print("submitting", query, lang, k)
             query = query.strip()
+            exact_search = False
+            if query.startswith('"') and query.endswith('"') and len(query) >= 2:
+                exact_search = True
+                query = query[1:-1]
+            else:
+                query = " ".join(query.split())
+            if query == "" or query is None:
                 return "", ""
+            results_html = ""
+            payload = request_payload(query, lang, exact_search, k)
+            err = extract_error_from_payload(payload)
+            if err is not None:
+                results_html = process_error(err)
+            else:
+                (
+                    processed_results,
+                    highlight_terms,
+                    num_results,
+                ) = extract_results_from_payload(query, lang, payload, exact_search)
+                results_html = format_result_page(
+                    lang, processed_results, highlight_terms, num_results, exact_search
+                )
+            datasets = []
             print(datasets)
             return {
                 results: results_html,
                 flagging_form: gr.update(visible=True),
                 datasets_filter: gr.update(visible=True),
+                available_datasets: gr.Dropdown.update(
+                    choices=datasets, value=datasets
+                ),
             }
         def filter_datasets():