biogpt-testing

Runtime error

App Files Files Community

flash64

kadirnar commited on Feb 12, 2023

Commit

e45d82f

0 Parent(s):

Duplicate from kadirnar/BioGpt

Browse files

Co-authored-by: Kadir Nar <[email protected]>

Files changed (5) hide show

.gitattributes +34 -0
README.md +14 -0
app.py +95 -0
requirements.txt +5 -0
utils.py +106 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: BioGpt
+emoji: 🌖
+colorFrom: red
+colorTo: purple
+sdk: gradio
+sdk_version: 3.17.0
+app_file: app.py
+pinned: false
+license: mit
+duplicated_from: kadirnar/BioGpt
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,95 @@

+from transformers import pipeline, set_seed
+from transformers import BioGptTokenizer, BioGptForCausalLM
+from multilingual_translation import translate
+from utils import lang_ids
+import gradio as gr
+import torch
+biogpt_model_list = [
+    "microsoft/biogpt",
+    "microsoft/BioGPT-Large",
+    "microsoft/BioGPT-Large-PubMedQA"
+]
+lang_model_list = [
+    "facebook/m2m100_1.2B",
+    "facebook/m2m100_418M"
+]
+lang_list = list(lang_ids.keys())
+def translate_to_english(text, lang_model_id, base_lang):
+    if base_lang == "English":
+        return text
+    else:
+        base_lang = lang_ids[base_lang]
+        new_text = translate(lang_model_id, text, base_lang, "en")
+        return new_text[0]
+def biogpt(
+    prompt: str,
+    biogpt_model_id: str,
+    max_length: str,
+    num_return_sequences: int,
+    base_lang: str,
+    lang_model_id: str
+):
+    en_prompt = translate_to_english(prompt, lang_model_id, base_lang)
+    generator = pipeline("text-generation", model=biogpt_model_id, device="cuda:0")
+    output = generator(en_prompt, max_length=max_length, num_return_sequences=num_return_sequences, do_sample=True)
+    output_dict = {}
+    for i in range(num_return_sequences):
+        output_dict[str(i+1)] = output[i]['generated_text']
+    output_text = ""
+    for i in range(num_return_sequences):
+        output_text += f'{output_dict[str(i+1)]}\n\n'
+    if base_lang == "English":
+        base_lang_output = output_text
+    else:
+        base_lang_output_ = ""
+        for i in range(num_return_sequences):
+            base_lang_output_ += f'{translate(lang_model_id, output_dict[str(i+1)], "en", lang_ids[base_lang])[0]}\n\n'
+        base_lang_output = base_lang_output_
+    return en_prompt, output_text, base_lang_output
+inputs = [
+    gr.Textbox(lines=5, value="COVID-19 is", label="Prompt"),
+    gr.Dropdown(biogpt_model_list, value="microsoft/biogpt", label="BioGPT Model ID"),
+    gr.Slider(minumum=1, maximum=100, value=25, step=1, label="Max Length"),
+    gr.Slider(minumum=1, maximum=10, value=2, step=1, label="Number of Outputs"),
+    gr.Dropdown(lang_list, value="English", label="Base Language"),
+    gr.Dropdown(lang_model_list, value="facebook/m2m100_418M", label="Language Model ID")
+    ]
+outputs = [
+    gr.outputs.Textbox(label="Prompt"),
+    gr.outputs.Textbox(label="Output"),
+    gr.outputs.Textbox(label="Translated Output")
+]
+examples = [
+    ["COVID-19 is", "microsoft/biogpt", 25, 2, "English", "facebook/m2m100_418M"],
+    ["Kanser", "microsoft/biogpt", 25, 2, "Turkish", "facebook/m2m100_1.2B"]
+]
+title = "M2M100 + BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining"
+description = "BioGPT is a domain-specific generative pre-trained Transformer language model for biomedical text generation and mining. BioGPT follows the Transformer language model backbone, and is pre-trained on 15M PubMed abstracts from scratch. Github: github.com/microsoft/BioGPT Paper: https://arxiv.org/abs/2210.10341"
+demo_app = gr.Interface(
+    biogpt,
+    inputs,
+    outputs,
+    title=title,
+    description=description,
+    examples=examples,
+    cache_examples=False,
+)
+demo_app.launch(debug=True, enable_queue=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+sacremoses
+torch
+beautifulsoup4==4.11.2
+multilingual_translation==0.0.3
+requests==2.28.1

utils.py ADDED Viewed

	@@ -0,0 +1,106 @@

+from bs4 import BeautifulSoup
+import requests
+lang_ids = {
+    "Afrikaans": "af",
+    "Amharic": "am",
+    "Arabic": "ar",
+    "Asturian": "ast",
+    "Azerbaijani": "az",
+    "Bashkir": "ba",
+    "Belarusian": "be",
+    "Bulgarian": "bg",
+    "Bengali": "bn",
+    "Breton": "br",
+    "Bosnian": "bs",
+    "Catalan": "ca",
+    "Cebuano": "ceb",
+    "Czech": "cs",
+    "Welsh": "cy",
+    "Danish": "da",
+    "German": "de",
+    "Greeek": "el",
+    "English": "en",
+    "Spanish": "es",
+    "Estonian": "et",
+    "Persian": "fa",
+    "Fulah": "ff",
+    "Finnish": "fi",
+    "French": "fr",
+    "Western Frisian": "fy",
+    "Irish": "ga",
+    "Gaelic": "gd",
+    "Galician": "gl",
+    "Gujarati": "gu",
+    "Hausa": "ha",
+    "Hebrew": "he",
+    "Hindi": "hi",
+    "Croatian": "hr",
+    "Haitian": "ht",
+    "Hungarian": "hu",
+    "Armenian": "hy",
+    "Indonesian": "id",
+    "Igbo": "ig",
+    "Iloko": "ilo",
+    "Icelandic": "is",
+    "Italian": "it",
+    "Japanese": "ja",
+    "Javanese": "jv",
+    "Georgian": "ka",
+    "Kazakh": "kk",
+    "Central Khmer": "km",
+    "Kannada": "kn",
+    "Korean": "ko",
+    "Luxembourgish": "lb",
+    "Ganda": "lg",
+    "Lingala": "ln",
+    "Lao": "lo",
+    "Lithuanian": "lt",
+    "Latvian": "lv",
+    "Malagasy": "mg",
+    "Macedonian": "mk",
+    "Malayalam": "ml",
+    "Mongolian": "mn",
+    "Marathi": "mr",
+    "Malay": "ms",
+    "Burmese": "my",
+    "Nepali": "ne",
+    "Dutch": "nl",
+    "Norwegian": "no",
+    "Northern Sotho": "ns",
+    "Occitan": "oc",
+    "Oriya": "or",
+    "Panjabi": "pa",
+    "Polish": "pl",
+    "Pushto": "ps",
+    "Portuguese": "pt",
+    "Romanian": "ro",
+    "Russian": "ru",
+    "Sindhi": "sd",
+    "Sinhala": "si",
+    "Slovak": "sk",
+    "Slovenian": "sl",
+    "Somali": "so",
+    "Albanian": "sq",
+    "Serbian": "sr",
+    "Swati": "ss",
+    "Sundanese": "su",
+    "Swedish": "sv",
+    "Swahili": "sw",
+    "Tamil": "ta",
+    "Thai": "th",
+    "Tagalog": "tl",
+    "Tswana": "tn",
+    "Turkish": "tr",
+    "Ukrainian": "uk",
+    "Urdu": "ur",
+    "Uzbek": "uz",
+    "Vietnamese": "vi",
+    "Wolof": "wo",
+    "Xhosa": "xh",
+    "Yiddish": "yi",
+    "Yoruba": "yo",
+    "Chinese": "zh",
+    "Zulu": "zu",
+}