openvoice2

Running

App Files Files Community

poemsforaphrodite commited on May 28

Commit

8c070ea

•

1 Parent(s): 61f84ab

Upload openvoice_app.py with huggingface_hub

Browse files

Files changed (1) hide show

openvoice_app.py +10 -26

openvoice_app.py CHANGED Viewed

@@ -34,21 +34,15 @@ zh_source_se = torch.load(f'{zh_ckpt_base}/zh_default_se.pth').to(device)
 # This online demo mainly supports English and Chinese
 supported_languages = ['zh', 'en']
-def predict(prompt, style, audio_file_pth, agree):
     # initialize a empty info
     text_hint = ''
-    # agree with the terms
-    if agree == False:
-        text_hint += '[ERROR] Please accept the Terms & Condition!\n'
-        gr.Warning("Please accept the Terms & Condition!")
-        return (
-            text_hint,
-            None,
-            None,
-        )
     # first detect the input language
-    language_predicted = langid.classify(prompt)[0].strip()
     print(f"Detected language:{language_predicted}")
     if language_predicted not in supported_languages:
@@ -116,6 +110,8 @@ def predict(prompt, style, audio_file_pth, agree):
     # note diffusion_conditioning not used on hifigan (default mode), it will be empty but need to pass it to model.inference
     try:
         target_se, audio_name = se_extractor.get_se(speaker_wav, tone_color_converter, target_dir='processed', vad=True)
     except Exception as e:
         text_hint += f"[ERROR] Get target tone color error {str(e)} \n"
         gr.Warning(
@@ -159,18 +155,15 @@ examples = [
         "今天天气真好，我们一起出去吃饭吧。",
         'default',
         "resources/demo_speaker1.mp3",
-        True,
     ],[
         "This audio is generated by open voice with a half-performance model.",
         'whispering',
         "resources/demo_speaker2.mp3",
-        True,
     ],
     [
         "He hoped there would be stew for dinner, turnips and carrots and bruised potatoes and fat mutton pieces to be ladled out in thick, peppered, flour-fattened sauce.",
         'sad',
         "resources/demo_speaker0.mp3",
-        True,
     ],
 ]
@@ -185,19 +178,16 @@ with gr.Blocks(analytics_enabled=False) as demo:
             style_gr = gr.Dropdown(
                 label="Style",
                 choices=['default', 'whispering', 'cheerful', 'terrified', 'angry', 'sad', 'friendly'],
                 max_choices=1,
                 value="default",
             )
             ref_gr = gr.Audio(
                 label="Reference Audio",
                 type="filepath",
                 value="resources/demo_speaker2.mp3",
             )
-            tos_gr = gr.Checkbox(
-                label="Agree",
-                value=False,
-                info="I agree to the terms of the cc-by-nc-4.0 license-: https://github.com/myshell-ai/OpenVoice/blob/main/LICENSE",
-            )
             tts_button = gr.Button("Send", elem_id="send-btn", visible=True)
@@ -207,13 +197,7 @@ with gr.Blocks(analytics_enabled=False) as demo:
             audio_gr = gr.Audio(label="Synthesised Audio", autoplay=True)
             ref_audio_gr = gr.Audio(label="Reference Audio Used")
-            gr.Examples(examples,
-                        label="Examples",
-                        inputs=[input_text_gr, style_gr, ref_gr, tos_gr],
-                        outputs=[out_text_gr, audio_gr, ref_audio_gr],
-                        fn=predict,
-                        cache_examples=False,)
-            tts_button.click(predict, [input_text_gr, style_gr, ref_gr, tos_gr], outputs=[out_text_gr, audio_gr, ref_audio_gr])
 demo.queue()
 demo.launch(debug=True, show_api=True, share=True)

 # This online demo mainly supports English and Chinese
 supported_languages = ['zh', 'en']
+def predict(prompt, style, audio_file_pth):
     # initialize a empty info
     text_hint = ''
+    # set agree to True by default
+    agree = True
     # first detect the input language
+    language_predicted = langid.classify(prompt)[0].strip()
     print(f"Detected language:{language_predicted}")
     if language_predicted not in supported_languages:
     # note diffusion_conditioning not used on hifigan (default mode), it will be empty but need to pass it to model.inference
     try:
         target_se, audio_name = se_extractor.get_se(speaker_wav, tone_color_converter, target_dir='processed', vad=True)
+        # base_speaker = f"{output_dir}/openai_source_output.mp3"
+        # source_se, audio_name = se_extractor.get_se(base_speaker, tone_color_converter, vad=True)
     except Exception as e:
         text_hint += f"[ERROR] Get target tone color error {str(e)} \n"
         gr.Warning(
         "今天天气真好，我们一起出去吃饭吧。",
         'default',
         "resources/demo_speaker1.mp3",
     ],[
         "This audio is generated by open voice with a half-performance model.",
         'whispering',
         "resources/demo_speaker2.mp3",
     ],
     [
         "He hoped there would be stew for dinner, turnips and carrots and bruised potatoes and fat mutton pieces to be ladled out in thick, peppered, flour-fattened sauce.",
         'sad',
         "resources/demo_speaker0.mp3",
     ],
 ]
             style_gr = gr.Dropdown(
                 label="Style",
                 choices=['default', 'whispering', 'cheerful', 'terrified', 'angry', 'sad', 'friendly'],
+                info="Please upload a reference audio file, it should be 1 minute long and clear.",
                 max_choices=1,
                 value="default",
             )
             ref_gr = gr.Audio(
                 label="Reference Audio",
                 type="filepath",
                 value="resources/demo_speaker2.mp3",
             )
             tts_button = gr.Button("Send", elem_id="send-btn", visible=True)
             audio_gr = gr.Audio(label="Synthesised Audio", autoplay=True)
             ref_audio_gr = gr.Audio(label="Reference Audio Used")
+            tts_button.click(predict, [input_text_gr, style_gr, ref_gr], outputs=[out_text_gr, audio_gr, ref_audio_gr])
 demo.queue()
 demo.launch(debug=True, show_api=True, share=True)