Spaces:

OpenSound
/

SSR-Speech

Running on Zero

OpenSound commited on Sep 22, 2024

Commit

41c3bad

1 Parent(s): 788a499

11

Files changed (1) hide show

app.py CHANGED Viewed

@@ -127,24 +127,27 @@ class WhisperxModel:
 @spaces.GPU
 def load_models(whisper_backend_name, whisper_model_name, alignment_model_name, ssrspeech_model_name):
     global transcribe_model, align_model, ssrspeech_model
     if ssrspeech_model_name == "English":
         ssrspeech_model_name = "English"
         text_tokenizer = TextTokenizer(backend="espeak")
     elif ssrspeech_model_name == "Mandarin":
         ssrspeech_model_name = "Mandarin"
         text_tokenizer = TextTokenizer(backend="espeak", language='cmn')
     if alignment_model_name is not None:
-        align_model = WhisperxAlignModel()
     if whisper_model_name is not None:
         if whisper_backend_name == "whisper":
-            transcribe_model = WhisperModel(whisper_model_name)
         else:
             if align_model is None:
                 raise gr.Error("Align model required for whisperx backend")
-            transcribe_model = WhisperxModel(whisper_model_name, align_model)
     ssrspeech_fn = f"{MODELS_PATH}/{ssrspeech_model_name}.pth"
     if not os.path.exists(ssrspeech_fn):

 @spaces.GPU
 def load_models(whisper_backend_name, whisper_model_name, alignment_model_name, ssrspeech_model_name):
     global transcribe_model, align_model, ssrspeech_model
     if ssrspeech_model_name == "English":
         ssrspeech_model_name = "English"
         text_tokenizer = TextTokenizer(backend="espeak")
+        language = "en"
     elif ssrspeech_model_name == "Mandarin":
         ssrspeech_model_name = "Mandarin"
         text_tokenizer = TextTokenizer(backend="espeak", language='cmn')
+        language = "zh"
     if alignment_model_name is not None:
+        align_model = WhisperxAlignModel(language)
     if whisper_model_name is not None:
         if whisper_backend_name == "whisper":
+            transcribe_model = WhisperModel(whisper_model_name, language)
         else:
             if align_model is None:
                 raise gr.Error("Align model required for whisperx backend")
+            transcribe_model = WhisperxModel(whisper_model_name, align_model, language)
     ssrspeech_fn = f"{MODELS_PATH}/{ssrspeech_model_name}.pth"
     if not os.path.exists(ssrspeech_fn):