Spaces:

Plachta
/

VALL-E-X

Running on L4

App Files Files Community

Plachta commited on Aug 30, 2023

Commit

88df3b8

1 Parent(s): c0d010f

Replaced Encodec with Vocos

Browse files

Files changed (1) hide show

app.py +111 -122

app.py CHANGED Viewed

@@ -323,7 +323,7 @@ def infer_from_prompt(text, language, accent, preset_prompt, prompt_file):
     return message, (24000, samples.squeeze(0).cpu().numpy())
 @torch.no_grad()
 def infer_long_text(text, preset_prompt, prompt=None, language='auto', accent='no-accent'):
     """
@@ -331,11 +331,9 @@ def infer_long_text(text, preset_prompt, prompt=None, language='auto', accent='n
     fixed-prompt: This mode will keep using the same prompt the user has provided, and generate audio sentence by sentence.
     sliding-window: This mode will use the last sentence as the prompt for the next sentence, but has some concern on speaker maintenance.
     """
-    from utils.sentence_cutter import split_text_into_sentences
     if len(text) > 1000:
         return "Rejected, Text too long (should be less than 1000 characters)", None
     mode = 'fixed-prompt'
-    global model, audio_tokenizer, text_tokenizer, text_collater
     if (prompt is None or prompt == "") and preset_prompt == "":
         mode = 'sliding-window'  # If no prompt is given, use sliding-window mode
     sentences = split_text_into_sentences(text)
@@ -463,122 +461,113 @@ def infer_long_text(text, preset_prompt, prompt=None, language='auto', accent='n
     else:
         raise ValueError(f"No such mode {mode}")
-def main():
-    app = gr.Blocks()
-    with app:
-        gr.Markdown(top_md)
-        with gr.Tab("Infer from audio"):
-            gr.Markdown(infer_from_audio_md)
-            with gr.Row():
-                with gr.Column():
-                    textbox = gr.TextArea(label="Text",
-                                          placeholder="Type your sentence here",
-                                          value="Welcome back, Master. What can I do for you today?", elem_id=f"tts-input")
-                    language_dropdown = gr.Dropdown(choices=['auto-detect', 'English', '中文', '日本語'], value='auto-detect', label='language')
-                    accent_dropdown = gr.Dropdown(choices=['no-accent', 'English', '中文', '日本語'], value='no-accent', label='accent')
-                    textbox_transcript = gr.TextArea(label="Transcript",
-                                          placeholder="Write transcript here. (leave empty to use whisper)",
-                                          value="", elem_id=f"prompt-name")
-                    upload_audio_prompt = gr.Audio(label='uploaded audio prompt', source='upload', interactive=True)
-                    record_audio_prompt = gr.Audio(label='recorded audio prompt', source='microphone', interactive=True)
-                with gr.Column():
-                    text_output = gr.Textbox(label="Message")
-                    audio_output = gr.Audio(label="Output Audio", elem_id="tts-audio")
-                    btn = gr.Button("Generate!")
-                    btn.click(infer_from_audio,
-                              inputs=[textbox, language_dropdown, accent_dropdown, upload_audio_prompt, record_audio_prompt, textbox_transcript],
-                              outputs=[text_output, audio_output])
-                    textbox_mp = gr.TextArea(label="Prompt name",
-                                          placeholder="Name your prompt here",
-                                          value="prompt_1", elem_id=f"prompt-name")
-                    btn_mp = gr.Button("Make prompt!")
-                    prompt_output = gr.File(interactive=False)
-                    btn_mp.click(make_npz_prompt,
-                                inputs=[textbox_mp, upload_audio_prompt, record_audio_prompt, textbox_transcript],
-                                outputs=[text_output, prompt_output])
-            gr.Examples(examples=infer_from_audio_examples,
-                        inputs=[textbox, language_dropdown, accent_dropdown, upload_audio_prompt, record_audio_prompt, textbox_transcript],
-                        outputs=[text_output, audio_output],
-                        fn=infer_from_audio,
-                        cache_examples=False,)
-        with gr.Tab("Make prompt"):
-            gr.Markdown(make_prompt_md)
-            with gr.Row():
-                with gr.Column():
-                    textbox2 = gr.TextArea(label="Prompt name",
-                                          placeholder="Name your prompt here",
-                                          value="prompt_1", elem_id=f"prompt-name")
-                    # 添加选择语言和输入台本的地方
-                    textbox_transcript2 = gr.TextArea(label="Transcript",
-                                          placeholder="Write transcript here. (leave empty to use whisper)",
-                                          value="", elem_id=f"prompt-name")
-                    upload_audio_prompt_2 = gr.Audio(label='uploaded audio prompt', source='upload', interactive=True)
-                    record_audio_prompt_2 = gr.Audio(label='recorded audio prompt', source='microphone', interactive=True)
-                with gr.Column():
-                    text_output_2 = gr.Textbox(label="Message")
-                    prompt_output_2 = gr.File(interactive=False)
-                    btn_2 = gr.Button("Make!")
-                    btn_2.click(make_npz_prompt,
-                              inputs=[textbox2, upload_audio_prompt_2, record_audio_prompt_2, textbox_transcript2],
-                              outputs=[text_output_2, prompt_output_2])
-            gr.Examples(examples=make_npz_prompt_examples,
-                        inputs=[textbox2, upload_audio_prompt_2, record_audio_prompt_2, textbox_transcript2],
-                        outputs=[text_output_2, prompt_output_2],
-                        fn=make_npz_prompt,
-                        cache_examples=False,)
-        with gr.Tab("Infer from prompt"):
-            gr.Markdown(infer_from_prompt_md)
-            with gr.Row():
-                with gr.Column():
-                    textbox_3 = gr.TextArea(label="Text",
-                                          placeholder="Type your sentence here",
-                                          value="Welcome back, Master. What can I do for you today?", elem_id=f"tts-input")
-                    language_dropdown_3 = gr.Dropdown(choices=['auto-detect', 'English', '中文', '日本語', 'Mix'], value='auto-detect',
-                                                    label='language')
-                    accent_dropdown_3 = gr.Dropdown(choices=['no-accent', 'English', '中文', '日本語'], value='no-accent',
-                                                  label='accent')
-                    preset_dropdown_3 = gr.Dropdown(choices=preset_list, value=None, label='Voice preset')
-                    prompt_file = gr.File(file_count='single', file_types=['.npz'], interactive=True)
-                with gr.Column():
-                    text_output_3 = gr.Textbox(label="Message")
-                    audio_output_3 = gr.Audio(label="Output Audio", elem_id="tts-audio")
-                    btn_3 = gr.Button("Generate!")
-                    btn_3.click(infer_from_prompt,
-                              inputs=[textbox_3, language_dropdown_3, accent_dropdown_3, preset_dropdown_3, prompt_file],
-                              outputs=[text_output_3, audio_output_3])
-            gr.Examples(examples=infer_from_prompt_examples,
-                        inputs=[textbox_3, language_dropdown_3, accent_dropdown_3, preset_dropdown_3, prompt_file],
-                        outputs=[text_output_3, audio_output_3],
-                        fn=infer_from_prompt,
-                        cache_examples=False,)
-        with gr.Tab("Infer long text"):
-            gr.Markdown(long_text_md)
-            with gr.Row():
-                with gr.Column():
-                    textbox_4 = gr.TextArea(label="Text",
-                                          placeholder="Type your sentence here",
-                                          value=long_text_example, elem_id=f"tts-input")
-                    language_dropdown_4 = gr.Dropdown(choices=['auto-detect', 'English', '中文', '日本語'], value='auto-detect',
-                                                    label='language')
-                    accent_dropdown_4 = gr.Dropdown(choices=['no-accent', 'English', '中文', '日本語'], value='no-accent',
-                                                    label='accent')
-                    preset_dropdown_4 = gr.Dropdown(choices=preset_list, value=None, label='Voice preset')
-                    prompt_file_4 = gr.File(file_count='single', file_types=['.npz'], interactive=True)
-                with gr.Column():
-                    text_output_4 = gr.TextArea(label="Message")
-                    audio_output_4 = gr.Audio(label="Output Audio", elem_id="tts-audio")
-                    btn_4 = gr.Button("Generate!")
-                    btn_4.click(infer_long_text,
-                              inputs=[textbox_4, preset_dropdown_4, prompt_file_4, language_dropdown_4, accent_dropdown_4],
-                              outputs=[text_output_4, audio_output_4])
-    app.launch()
-if __name__ == "__main__":
-    formatter = (
-        "%(asctime)s %(levelname)s [%(filename)s:%(lineno)d] %(message)s"
-    )
-    logging.basicConfig(format=formatter, level=logging.INFO)
-    main()

     return message, (24000, samples.squeeze(0).cpu().numpy())
+from utils.sentence_cutter import split_text_into_sentences
 @torch.no_grad()
 def infer_long_text(text, preset_prompt, prompt=None, language='auto', accent='no-accent'):
     """
     fixed-prompt: This mode will keep using the same prompt the user has provided, and generate audio sentence by sentence.
     sliding-window: This mode will use the last sentence as the prompt for the next sentence, but has some concern on speaker maintenance.
     """
     if len(text) > 1000:
         return "Rejected, Text too long (should be less than 1000 characters)", None
     mode = 'fixed-prompt'
     if (prompt is None or prompt == "") and preset_prompt == "":
         mode = 'sliding-window'  # If no prompt is given, use sliding-window mode
     sentences = split_text_into_sentences(text)
     else:
         raise ValueError(f"No such mode {mode}")
+app = gr.Blocks()
+with app:
+    gr.Markdown(top_md)
+    with gr.Tab("Infer from audio"):
+        gr.Markdown(infer_from_audio_md)
+        with gr.Row():
+            with gr.Column():
+                textbox = gr.TextArea(label="Text",
+                                      placeholder="Type your sentence here",
+                                      value="Welcome back, Master. What can I do for you today?", elem_id=f"tts-input")
+                language_dropdown = gr.Dropdown(choices=['auto-detect', 'English', '中文', '日本語'], value='auto-detect', label='language')
+                accent_dropdown = gr.Dropdown(choices=['no-accent', 'English', '中文', '日本語'], value='no-accent', label='accent')
+                textbox_transcript = gr.TextArea(label="Transcript",
+                                      placeholder="Write transcript here. (leave empty to use whisper)",
+                                      value="", elem_id=f"prompt-name")
+                upload_audio_prompt = gr.Audio(label='uploaded audio prompt', source='upload', interactive=True)
+                record_audio_prompt = gr.Audio(label='recorded audio prompt', source='microphone', interactive=True)
+            with gr.Column():
+                text_output = gr.Textbox(label="Message")
+                audio_output = gr.Audio(label="Output Audio", elem_id="tts-audio")
+                btn = gr.Button("Generate!")
+                btn.click(infer_from_audio,
+                          inputs=[textbox, language_dropdown, accent_dropdown, upload_audio_prompt, record_audio_prompt, textbox_transcript],
+                          outputs=[text_output, audio_output])
+                textbox_mp = gr.TextArea(label="Prompt name",
+                                      placeholder="Name your prompt here",
+                                      value="prompt_1", elem_id=f"prompt-name")
+                btn_mp = gr.Button("Make prompt!")
+                prompt_output = gr.File(interactive=False)
+                btn_mp.click(make_npz_prompt,
+                            inputs=[textbox_mp, upload_audio_prompt, record_audio_prompt, textbox_transcript],
+                            outputs=[text_output, prompt_output])
+        gr.Examples(examples=infer_from_audio_examples,
+                    inputs=[textbox, language_dropdown, accent_dropdown, upload_audio_prompt, record_audio_prompt, textbox_transcript],
+                    outputs=[text_output, audio_output],
+                    fn=infer_from_audio,
+                    cache_examples=False,)
+    with gr.Tab("Make prompt"):
+        gr.Markdown(make_prompt_md)
+        with gr.Row():
+            with gr.Column():
+                textbox2 = gr.TextArea(label="Prompt name",
+                                      placeholder="Name your prompt here",
+                                      value="prompt_1", elem_id=f"prompt-name")
+                # 添加选择语言和输入台本的地方
+                textbox_transcript2 = gr.TextArea(label="Transcript",
+                                      placeholder="Write transcript here. (leave empty to use whisper)",
+                                      value="", elem_id=f"prompt-name")
+                upload_audio_prompt_2 = gr.Audio(label='uploaded audio prompt', source='upload', interactive=True)
+                record_audio_prompt_2 = gr.Audio(label='recorded audio prompt', source='microphone', interactive=True)
+            with gr.Column():
+                text_output_2 = gr.Textbox(label="Message")
+                prompt_output_2 = gr.File(interactive=False)
+                btn_2 = gr.Button("Make!")
+                btn_2.click(make_npz_prompt,
+                          inputs=[textbox2, upload_audio_prompt_2, record_audio_prompt_2, textbox_transcript2],
+                          outputs=[text_output_2, prompt_output_2])
+        gr.Examples(examples=make_npz_prompt_examples,
+                    inputs=[textbox2, upload_audio_prompt_2, record_audio_prompt_2, textbox_transcript2],
+                    outputs=[text_output_2, prompt_output_2],
+                    fn=make_npz_prompt,
+                    cache_examples=False,)
+    with gr.Tab("Infer from prompt"):
+        gr.Markdown(infer_from_prompt_md)
+        with gr.Row():
+            with gr.Column():
+                textbox_3 = gr.TextArea(label="Text",
+                                      placeholder="Type your sentence here",
+                                      value="Welcome back, Master. What can I do for you today?", elem_id=f"tts-input")
+                language_dropdown_3 = gr.Dropdown(choices=['auto-detect', 'English', '中文', '日本語', 'Mix'], value='auto-detect',
+                                                label='language')
+                accent_dropdown_3 = gr.Dropdown(choices=['no-accent', 'English', '中文', '日本語'], value='no-accent',
+                                              label='accent')
+                preset_dropdown_3 = gr.Dropdown(choices=preset_list, value=None, label='Voice preset')
+                prompt_file = gr.File(file_count='single', file_types=['.npz'], interactive=True)
+            with gr.Column():
+                text_output_3 = gr.Textbox(label="Message")
+                audio_output_3 = gr.Audio(label="Output Audio", elem_id="tts-audio")
+                btn_3 = gr.Button("Generate!")
+                btn_3.click(infer_from_prompt,
+                          inputs=[textbox_3, language_dropdown_3, accent_dropdown_3, preset_dropdown_3, prompt_file],
+                          outputs=[text_output_3, audio_output_3])
+        gr.Examples(examples=infer_from_prompt_examples,
+                    inputs=[textbox_3, language_dropdown_3, accent_dropdown_3, preset_dropdown_3, prompt_file],
+                    outputs=[text_output_3, audio_output_3],
+                    fn=infer_from_prompt,
+                    cache_examples=False,)
+    with gr.Tab("Infer long text"):
+        gr.Markdown(long_text_md)
+        with gr.Row():
+            with gr.Column():
+                textbox_4 = gr.TextArea(label="Text",
+                                      placeholder="Type your sentence here",
+                                      value=long_text_example, elem_id=f"tts-input")
+                language_dropdown_4 = gr.Dropdown(choices=['auto-detect', 'English', '中文', '日本語'], value='auto-detect',
+                                                label='language')
+                accent_dropdown_4 = gr.Dropdown(choices=['no-accent', 'English', '中文', '日本語'], value='no-accent',
+                                                label='accent')
+                preset_dropdown_4 = gr.Dropdown(choices=preset_list, value=None, label='Voice preset')
+                prompt_file_4 = gr.File(file_count='single', file_types=['.npz'], interactive=True)
+            with gr.Column():
+                text_output_4 = gr.TextArea(label="Message")
+                audio_output_4 = gr.Audio(label="Output Audio", elem_id="tts-audio")
+                btn_4 = gr.Button("Generate!")
+                btn_4.click(infer_long_text,
+                          inputs=[textbox_4, preset_dropdown_4, prompt_file_4, language_dropdown_4, accent_dropdown_4],
+                          outputs=[text_output_4, audio_output_4])
+app.launch()