Uganda_2_English_Speech_Translation

Runtime error

App Files Files Community

allandclive commited on Jul 18, 2023

Commit

4aeda1d

1 Parent(s): 5c0f6b5

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -40

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import gradio as gr
 import torch
 import librosa
-import numpy as np
 from transformers import pipeline
 from stitched_model import CombinedModel
@@ -10,34 +9,7 @@ device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # Load the model
 model = CombinedModel("facebook/mms-1b-all", "Sunbird/sunbird-mul-en-mbart-merged", device=device)
-def preprocess_audio(audio_file):
-    speech, sample_rate = librosa.load(audio_file, sr=16000, mono=True)
-    chunk_size = 10 * 16000
-    chunks = []
-    for i in range(0, len(speech), chunk_size):
-        chunk = speech[i:i + chunk_size]
-        if len(chunk) < chunk_size:
-            # Pad the last chunk if its duration is less than 10 seconds
-            chunk = np.pad(chunk, (0, chunk_size - len(chunk)))
-        chunks.append(chunk)
-    return chunks
-def transcribe(chunks):
-    transcriptions = []
-    translations = []
-    for chunk in chunks:
-        chunk = torch.tensor([chunk])
-        with torch.no_grad():
-            transcription, translation = model({"audio": chunk})
-        transcriptions.append(transcription)
-        translations.append(translation[0])
-    transcription = "".join(transcriptions)
-    translation = " ".join(translations)
-    return transcription, translation
-def process_audio(audio_file_mic=None, audio_file_upload=None):
     if audio_file_mic:
         audio_file = audio_file_mic
     elif audio_file_upload:
@@ -45,19 +17,28 @@ def process_audio(audio_file_mic=None, audio_file_upload=None):
     else:
         return "Please upload an audio file or record one"
-    chunks = preprocess_audio(audio_file)
-    transcription, translation = transcribe(chunks)
     return transcription, translation
 description = '''Luganda to English Speech Translation'''
-iface = gr.Interface(fn=process_audio,
-                     inputs=[
-                         gr.Audio(source="microphone", type="filepath", label="Record Audio"),
-                         gr.Audio(source="upload", type="filepath", label="Upload Audio")],
-                     outputs=[gr.Textbox(label="Transcription"),
-                              gr.Textbox(label="Translation")
-                     ],
-                     description=description
-                     )
 iface.launch()

 import gradio as gr
 import torch
 import librosa
 from transformers import pipeline
 from stitched_model import CombinedModel
 # Load the model
 model = CombinedModel("facebook/mms-1b-all", "Sunbird/sunbird-mul-en-mbart-merged", device=device)
+def transcribe(audio_file_mic=None, audio_file_upload=None):
     if audio_file_mic:
         audio_file = audio_file_mic
     elif audio_file_upload:
     else:
         return "Please upload an audio file or record one"
+    # Load the audio file
+    speech, sample_rate = librosa.load(audio_file, sr=16000, mono=True)
+    # Process the audio and perform transcription
+    speech_tensor = torch.tensor([speech])
+    with torch.no_grad():
+        transcription, translation = model({"audio": speech_tensor})
     return transcription, translation
 description = '''Luganda to English Speech Translation'''
+iface = gr.Interface(
+    fn=transcribe,
+    inputs=[
+        gr.Audio(source="microphone", type="filepath", label="Record Audio"),
+        gr.Audio(source="upload", type="filepath", label="Upload Audio")
+    ],
+    outputs=[
+        gr.Textbox(label="Transcription"),
+        gr.Textbox(label="Translation")
+    ],
+    description=description
+)
 iface.launch()