Spaces:

OpenSound
/

SSR-Speech

Running on Zero

App Files Files Community

OpenSound commited on Oct 4, 2024

Commit

4b8ea71

1 Parent(s): 0b57247

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -51

app.py CHANGED Viewed

@@ -31,16 +31,6 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 def get_random_string():
     return "".join(str(uuid.uuid4()).split("-"))
-def traditional_to_simplified(segments):
-    converter = opencc.OpenCC('t2s')
-    seg_num = len(segments)
-    for i in range(seg_num):
-        words = segments[i]['words']
-        for j in range(len(words)):
-            segments[i]['words'][j]['word'] = converter.convert(segments[i]['words'][j]['word'])
-        segments[i]['text'] = converter.convert(segments[i]['text'])
-    return segments
 @spaces.GPU
 def seed_everything(seed):
     if seed != -1:
@@ -80,50 +70,14 @@ def get_mask_interval(transcribe_state, word_span):
     return (start, end)
-from whisperx import load_align_model
-@spaces.GPU
-class WhisperxAlignModel:
-    def __init__(self, language):
-        from whisperx import load_align_model
-        self.model, self.metadata = load_align_model(language_code=language, device=device)
-    def align(self, segments, audio_path):
-        from whisperx import align, load_audio
-        audio = load_audio(audio_path)
-        return align(segments, self.model, self.metadata, audio, device, return_char_alignments=False)["segments"]
-@spaces.GPU
-class WhisperxModel:
-    def __init__(self, model_name, align_model, language):
-        from whisperx import load_model
-        self.model = load_model(model_name, device, asr_options={"suppress_numerals": True, "max_new_tokens": None, "clip_timestamps": None, "hallucination_silence_threshold": None}, language=language)
-        self.align_model = align_model
-    def transcribe(self, audio_path):
-        segments = self.model.transcribe(audio_path, batch_size=8)["segments"]
-        for segment in segments:
-            segment['text'] = replace_numbers_with_words(segment['text'])
-        return self.align_model.align(segments, audio_path)
 from whisperx import load_align_model, load_model, load_audio
 from whisperx import align as align_func
 ssrspeech_model_name = "English"
 text_tokenizer = TextTokenizer(backend="espeak")
 language = "en"
 transcribe_model_name = "base.en"
-# align_model = WhisperxAlignModel(language)
-# transcribe_model = WhisperxModel(transcribe_model_name, align_model, language)
-# align_model, align_model_metadata = load_align_model(language_code=language, device=device)
-# transcribe_model = load_model(transcribe_model_name, device, asr_options={"suppress_numerals": True, "max_new_tokens": None, "clip_timestamps": None, "hallucination_silence_threshold": None}, language=language)
 ssrspeech_fn = f"{MODELS_PATH}/{ssrspeech_model_name}.pth"
 if not os.path.exists(ssrspeech_fn):
     os.system(f"wget https://huggingface.co/westbrook/SSR-Speech-{ssrspeech_model_name}/resolve/main/{ssrspeech_model_name}.pth -O " + ssrspeech_fn)
@@ -161,7 +115,10 @@ def get_transcribe_state(segments):
 def transcribe(audio_path):
     align_model, _ = load_align_model(language_code=language, device=device)
     transcribe_model = load_model(transcribe_model_name, device, asr_options={"suppress_numerals": True, "max_new_tokens": None, "clip_timestamps": None, "hallucination_silence_threshold": None}, language=language)
-    segments = transcribe_model.transcribe(audio_path)
     state = get_transcribe_state(segments)
     success_message = "<span style='color:green;'>Success: Transcribe completed successfully!</span>"
@@ -350,12 +307,12 @@ demo_text = {
 def get_app():
     with gr.Blocks() as app:
         gr.Markdown("""
-            # EzAudio: High-quality Text-to-Audio Generator
-            Generate and edit audio from text using a diffusion transformer. Adjust advanced settings for more control.
-            Learn more about 🟣**EzAudio** on the [EzAudio Homepage](https://haidog-yaqub.github.io/EzAudio-Page/).
-            🚀 The **EzAudio-ControlNet (Energy Envelope)** demo is now live! Try it on [🤗EzAudio-ControlNet Space](https://huggingface.co/spaces/OpenSound/EzAudio-ControlNet).
         """)
         with gr.Row():
             with gr.Column(scale=2):

 def get_random_string():
     return "".join(str(uuid.uuid4()).split("-"))
 @spaces.GPU
 def seed_everything(seed):
     if seed != -1:
     return (start, end)
 from whisperx import load_align_model, load_model, load_audio
 from whisperx import align as align_func
 ssrspeech_model_name = "English"
 text_tokenizer = TextTokenizer(backend="espeak")
 language = "en"
 transcribe_model_name = "base.en"
 ssrspeech_fn = f"{MODELS_PATH}/{ssrspeech_model_name}.pth"
 if not os.path.exists(ssrspeech_fn):
     os.system(f"wget https://huggingface.co/westbrook/SSR-Speech-{ssrspeech_model_name}/resolve/main/{ssrspeech_model_name}.pth -O " + ssrspeech_fn)
 def transcribe(audio_path):
     align_model, _ = load_align_model(language_code=language, device=device)
     transcribe_model = load_model(transcribe_model_name, device, asr_options={"suppress_numerals": True, "max_new_tokens": None, "clip_timestamps": None, "hallucination_silence_threshold": None}, language=language)
+    segments = transcribe_model.transcribe(audio_path, batch_size=8)["segments"]
+    for segment in segments:
+        segment['text'] = replace_numbers_with_words(segment['text'])
+    segments = align_model.align(segments, audio_path)
     state = get_transcribe_state(segments)
     success_message = "<span style='color:green;'>Success: Transcribe completed successfully!</span>"
 def get_app():
     with gr.Blocks() as app:
         gr.Markdown("""
+            # SSR-Speech: High-quality Speech Editor and Text-to-Speech Synthesizer
+            Generate and edit speech from text. Adjust advanced settings for more control.
+            Learn more about 🟣**SSR-Speech** on the [SSR-Speech Homepage](https://wanghelin1997.github.io/SSR-Speech-Demo/).
+            🚀 The **SSR-Speech (Mandarin)** demo is now live! Try it on [🤗SSR-Speech-Mandarin Space](https://huggingface.co/spaces/OpenSound/SSR-Speech-Mandarin).
         """)
         with gr.Row():
             with gr.Column(scale=2):