MMS-ASR-Fula

Build error

App Files Files Community

yaya-sy commited on Dec 6, 2023

Commit

a55cb0d

1 Parent(s): 06844e7

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -13

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import gradio as gr
 from transformers import Wav2Vec2ForCTC, AutoProcessor
 import torch
 import librosa
 import json
@@ -9,9 +10,10 @@ with open('ISO_codes.json', 'r') as file:
 languages = list(iso_codes.keys())
-model_id = "facebook/mms-1b-all"
 processor = AutoProcessor.from_pretrained(model_id)
 model = Wav2Vec2ForCTC.from_pretrained(model_id)
 def transcribe(audio_file_mic=None, audio_file_upload=None, language="English (eng)"):
     if audio_file_mic:
@@ -29,19 +31,10 @@ def transcribe(audio_file_mic=None, audio_file_upload=None, language="English (e
     # Keep the same model in memory and simply switch out the language adapters by calling load_adapter() for the model and set_target_lang() for the tokenizer
     language_code = iso_codes[language]
     processor.tokenizer.set_target_lang(language_code)
-    model.load_adapter(language_code)
-    inputs = processor(speech, sampling_rate=16_000, return_tensors="pt")
-    with torch.no_grad():
-        outputs = model(**inputs).logits
-    ids = torch.argmax(outputs, dim=-1)[0]
-    transcription = processor.decode(ids)
-    return transcription
-examples = [["kab_1.mp3", None, "Amazigh (kab)"],
-            ["kab_2.mp3", None, "Amazigh (kab)"]]
 description = '''Automatic Speech Recognition with [MMS](https://ai.facebook.com/blog/multilingual-model-speech-recognition/) (Massively Multilingual Speech) by Meta.
 Supports [1162 languages](https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html). Read the paper for more details: [Scaling Speech Technology to 1,000+ Languages](https://arxiv.org/abs/2305.13516).'''
@@ -53,7 +46,6 @@ iface = gr.Interface(fn=transcribe,
                          gr.Dropdown(choices=languages, label="Language", value="English (eng)")
                          ],
                      outputs=gr.Textbox(label="Transcription"),
-                     examples=examples,
                      description=description
                      )
 iface.launch()

 import gradio as gr
 from transformers import Wav2Vec2ForCTC, AutoProcessor
+from optimum.bettertransformer import BetterTransformer
 import torch
 import librosa
 import json
 languages = list(iso_codes.keys())
+model_id = "cawoylel/windanam_mms-1b-tts_v2"
 processor = AutoProcessor.from_pretrained(model_id)
 model = Wav2Vec2ForCTC.from_pretrained(model_id)
+model = BetterTransformer.transform(model)
 def transcribe(audio_file_mic=None, audio_file_upload=None, language="English (eng)"):
     if audio_file_mic:
     # Keep the same model in memory and simply switch out the language adapters by calling load_adapter() for the model and set_target_lang() for the tokenizer
     language_code = iso_codes[language]
     processor.tokenizer.set_target_lang(language_code)
+    pipe = pipeline("automatic-speech-recognition", model=model)
+    return pipe(audio_file)["text"]
 description = '''Automatic Speech Recognition with [MMS](https://ai.facebook.com/blog/multilingual-model-speech-recognition/) (Massively Multilingual Speech) by Meta.
 Supports [1162 languages](https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html). Read the paper for more details: [Scaling Speech Technology to 1,000+ Languages](https://arxiv.org/abs/2305.13516).'''
                          gr.Dropdown(choices=languages, label="Language", value="English (eng)")
                          ],
                      outputs=gr.Textbox(label="Transcription"),
                      description=description
                      )
 iface.launch()