Spaces:

ahmedJaafari
/

Annarabic

Runtime error

App Files Files

ahmedJaafari commited on Feb 20, 2022

Commit

85959f4

1 Parent(s): 0e5b41a

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -28

app.py CHANGED Viewed

@@ -1,32 +1,36 @@
-import librosa
-import gradio as gr
-import numpy as np
-from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 import soundfile as sf
 import torch
-# load model and tokenizer
-processor = Wav2Vec2Processor.from_pretrained("ahmedJaafari/Annarabic3.2", use_auth_token=st.secrets["AnnarabicToken"])
-model = Wav2Vec2ForCTC.from_pretrained("ahmedJaafari/Annarabic3.2", use_auth_token=st.secrets["AnnarabicToken"])
-def speech2text(audio):
-    sr, data = audio
-    # resample to 16hz
-    data_16hz = librosa.resample(data[:,0].astype(np.float32),sr,16000)
-    # tokenize
-    input_values = processor([data_16hz], return_tensors="pt", padding="longest").input_values  # Batch size 1
-    # retrieve logits
     logits = model(input_values).logits
-    # take argmax and decode
     predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.batch_decode(predicted_ids)
-    return transcription[0]  # batch size 1
-iface = gr.Interface(speech2text, "microphone", "text")
-iface.launch()

 import soundfile as sf
 import torch
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+import gradio as gr
+import sox
+import os
+def convert(inputfile, outfile):
+    sox_tfm = sox.Transformer()
+    sox_tfm.set_output_format(
+        file_type="wav", channels=1, encoding="signed-integer", rate=16000, bits=16
+    )
+    sox_tfm.build(inputfile, outfile)
+api_token = os.getenv("AnnarabicToken")
+model_name = "ahmedJaafari/Annarabic3.2"
+processor = Wav2Vec2Processor.from_pretrained(model_name, use_auth_token=api_token)
+model = Wav2Vec2ForCTC.from_pretrained(model_name, use_auth_token=api_token)
+def parse_transcription(wav_file):
+    filename = wav_file.name.split('.')[0]
+    convert(wav_file.name, filename + "16k.wav")
+    speech, _ = sf.read(filename + "16k.wav")
+    input_values = processor(speech, sampling_rate=16_000, return_tensors="pt").input_values
     logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
+    return transcription
+output = gr.outputs.Textbox(label="The transcript")
+input_ = gr.inputs.Audio(source="microphone", type="file")
+gr.Interface(parse_transcription, inputs=input_,  outputs=[output],
+             analytics_enabled=False,
+             show_tips=False,
+             theme='huggingface',
+             layout='vertical',
+             title="Speech Recognition for Darija",
+             description="Speech Recognition Live Demo for Darija",
+             enable_queue=True).launch( inline=False)