Spaces:

OpenSound
/

SSR-Speech

Running on Zero

App Files Files Community

OpenSound commited on Dec 22, 2024

Commit

e33f8aa

verified ·

1 Parent(s): 8abe49d

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -4

app.py CHANGED Viewed

@@ -177,7 +177,7 @@ def get_transcribe_state(segments):
 @spaces.GPU
 def transcribe_en(audio_path):
     language = "en"
-    transcribe_model_name = "base.en"
     transcribe_model = load_model(transcribe_model_name, device, asr_options={"suppress_numerals": True, "max_new_tokens": None, "clip_timestamps": None, "hallucination_silence_threshold": None}, language=language)
     segments = transcribe_model.transcribe(audio_path, batch_size=8)["segments"]
     for segment in segments:
@@ -194,7 +194,7 @@ def transcribe_en(audio_path):
 @spaces.GPU
 def transcribe_zh(audio_path):
     language = "zh"
-    transcribe_model_name = "base"
     transcribe_model = load_model(transcribe_model_name, device, asr_options={"suppress_numerals": True, "max_new_tokens": None, "clip_timestamps": None, "hallucination_silence_threshold": None}, language=language)
     segments = transcribe_model.transcribe(audio_path, batch_size=8)["segments"]
     for segment in segments:
@@ -466,7 +466,7 @@ def run_edit_zh(seed, sub_amount, aug_text, cfg_coef, cfg_stride, prompt_length,
     target_transcript = replace_numbers_with_words(transcript).replace("  ", " ").replace("  ", " ").replace("\n", " ")
     orig_transcript = replace_numbers_with_words(original_transcript).replace("  ", " ").replace("  ", " ").replace("\n", " ")
-    [orig_transcript, segments, _] = transcribe_zh(audio_path)
     converter = opencc.OpenCC('t2s')
     orig_transcript = converter.convert(orig_transcript)
@@ -564,7 +564,7 @@ def run_tts_zh(seed, sub_amount, aug_text, cfg_coef, cfg_stride, prompt_length,
     target_transcript = replace_numbers_with_words(transcript).replace("  ", " ").replace("  ", " ").replace("\n", " ")
     orig_transcript = replace_numbers_with_words(original_transcript).replace("  ", " ").replace("  ", " ").replace("\n", " ")
-    [orig_transcript, segments, _] = transcribe_zh(audio_path)
     converter = opencc.OpenCC('t2s')
     orig_transcript = converter.convert(orig_transcript)

 @spaces.GPU
 def transcribe_en(audio_path):
     language = "en"
+    transcribe_model_name = "medium.en"
     transcribe_model = load_model(transcribe_model_name, device, asr_options={"suppress_numerals": True, "max_new_tokens": None, "clip_timestamps": None, "hallucination_silence_threshold": None}, language=language)
     segments = transcribe_model.transcribe(audio_path, batch_size=8)["segments"]
     for segment in segments:
 @spaces.GPU
 def transcribe_zh(audio_path):
     language = "zh"
+    transcribe_model_name = "medium"
     transcribe_model = load_model(transcribe_model_name, device, asr_options={"suppress_numerals": True, "max_new_tokens": None, "clip_timestamps": None, "hallucination_silence_threshold": None}, language=language)
     segments = transcribe_model.transcribe(audio_path, batch_size=8)["segments"]
     for segment in segments:
     target_transcript = replace_numbers_with_words(transcript).replace("  ", " ").replace("  ", " ").replace("\n", " ")
     orig_transcript = replace_numbers_with_words(original_transcript).replace("  ", " ").replace("  ", " ").replace("\n", " ")
+    [orig_transcript, segments, _, _] = transcribe_zh(audio_path)
     converter = opencc.OpenCC('t2s')
     orig_transcript = converter.convert(orig_transcript)
     target_transcript = replace_numbers_with_words(transcript).replace("  ", " ").replace("  ", " ").replace("\n", " ")
     orig_transcript = replace_numbers_with_words(original_transcript).replace("  ", " ").replace("  ", " ").replace("\n", " ")
+    [orig_transcript, segments, _, _] = transcribe_zh(audio_path)
     converter = opencc.OpenCC('t2s')
     orig_transcript = converter.convert(orig_transcript)