Spaces:

frogcho123
/

speech2speech

Runtime error

frogcho123 commited on Jun 8, 2023

Commit

d195d40

1 Parent(s): cc4c3a2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import os
 import whisper
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from gtts import gTTS
 # Load models
 model_stt = whisper.load_model("base")
@@ -36,13 +37,22 @@ def speech_to_speech(input_audio, to_lang):
     output_file = "output_audio.mp3"
     tts.save(output_file)
-    return output_file
 languages = ["ru", "fr", "es", "de"]  # Example languages: Russian, French, Spanish, German
-file_input = gr.inputs.File(label="Upload Audio")
 dropdown = gr.inputs.Dropdown(languages, label="Translation Language")
-audio_output = gr.outputs.Audio(label="Translated Voice")
-gr.Interface(fn=speech_to_speech, inputs=[file_input, dropdown], outputs=audio_output, title="Speech-to-Speech Translator", description="Upload an audio file (MP3, WAV, or FLAC) and choose the target language for translation.", theme="default").launch()

 import whisper
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from gtts import gTTS
+import numpy as np
 # Load models
 model_stt = whisper.load_model("base")
     output_file = "output_audio.mp3"
     tts.save(output_file)
+    # Load output audio as numpy array
+    audio_np = np.array(output_file)
+    return audio_np
 languages = ["ru", "fr", "es", "de"]  # Example languages: Russian, French, Spanish, German
+file_input = gr.inputs.File(label="Upload Audio", accept="audio/*")
 dropdown = gr.inputs.Dropdown(languages, label="Translation Language")
+audio_output = gr.outputs.Audio(label="Translated Voice", type="numpy")
+gr.Interface(
+    fn=speech_to_speech,
+    inputs=[file_input, dropdown],
+    outputs=audio_output,
+    title="Speech-to-Speech Translator",
+    description="Upload an audio file (MP3, WAV, or FLAC) and choose the target language for translation.",
+    theme="default"
+).launch()