multi_parler_tts

Running on Zero

App Files Files Community

PHBJT commited on Sep 15

Commit

276c4d0

•

1 Parent(s): 6ca328f

Update app.py

Browse files

Updated the model repo_id and removed the large option.

Files changed (1) hide show

app.py +6 -14

app.py CHANGED Viewed

@@ -12,11 +12,9 @@ from transformers import AutoTokenizer, AutoFeatureExtractor, set_seed
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
-repo_id =  "parler-tts/parler-tts-mini-v1"
-repo_id_large = "ylacombe/parler-large-v1-og"
 model = ParlerTTSForConditionalGeneration.from_pretrained(repo_id).to(device)
-model_large = ParlerTTSForConditionalGeneration.from_pretrained(repo_id_large).to(device)
 tokenizer = AutoTokenizer.from_pretrained(repo_id)
 feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
@@ -76,19 +74,14 @@ def preprocess(text):
     return text
 @spaces.GPU
-def gen_tts(text, description, use_large=False):
     inputs = tokenizer(description.strip(), return_tensors="pt").to(device)
     prompt = tokenizer(preprocess(text), return_tensors="pt").to(device)
     set_seed(SEED)
-    if use_large:
-        generation = model_large.generate(
-            input_ids=inputs.input_ids, prompt_input_ids=prompt.input_ids, attention_mask=inputs.attention_mask, prompt_attention_mask=prompt.attention_mask, do_sample=True, temperature=1.0
-        )
-    else:
-        generation = model.generate(
-            input_ids=inputs.input_ids, prompt_input_ids=prompt.input_ids, attention_mask=inputs.attention_mask, prompt_attention_mask=prompt.attention_mask, do_sample=True, temperature=1.0
-        )
     audio_arr = generation.cpu().numpy().squeeze()
     return SAMPLE_RATE, audio_arr
@@ -163,12 +156,11 @@ with gr.Blocks(css=css) as block:
         with gr.Column():
             input_text = gr.Textbox(label="Input Text", lines=2, value=default_text, elem_id="input_text")
             description = gr.Textbox(label="Description", lines=2, value=default_description, elem_id="input_description")
-            use_large = gr.Checkbox(value=False, label="Use Large checkpoint", info="Generate with Parler-TTS Large v1 instead of Mini v1 - Better but way slower.")
             run_button = gr.Button("Generate Audio", variant="primary")
         with gr.Column():
             audio_out = gr.Audio(label="Parler-TTS generation", type="numpy", elem_id="audio_out")
-    inputs = [input_text, description, use_large]
     outputs = [audio_out]
     run_button.click(fn=gen_tts, inputs=inputs, outputs=outputs, queue=True)
     gr.Examples(examples=examples, fn=gen_tts, inputs=inputs, outputs=outputs, cache_examples=True)

 device = "cuda:0" if torch.cuda.is_available() else "cpu"
+repo_id =  "PHBJT/parler_french_tts_mini_v0.1"
 model = ParlerTTSForConditionalGeneration.from_pretrained(repo_id).to(device)
 tokenizer = AutoTokenizer.from_pretrained(repo_id)
 feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
     return text
 @spaces.GPU
+def gen_tts(text, description):
     inputs = tokenizer(description.strip(), return_tensors="pt").to(device)
     prompt = tokenizer(preprocess(text), return_tensors="pt").to(device)
     set_seed(SEED)
+    generation = model.generate(
+        input_ids=inputs.input_ids, prompt_input_ids=prompt.input_ids, attention_mask=inputs.attention_mask, prompt_attention_mask=prompt.attention_mask, do_sample=True, temperature=1.0
+    )
     audio_arr = generation.cpu().numpy().squeeze()
     return SAMPLE_RATE, audio_arr
         with gr.Column():
             input_text = gr.Textbox(label="Input Text", lines=2, value=default_text, elem_id="input_text")
             description = gr.Textbox(label="Description", lines=2, value=default_description, elem_id="input_description")
             run_button = gr.Button("Generate Audio", variant="primary")
         with gr.Column():
             audio_out = gr.Audio(label="Parler-TTS generation", type="numpy", elem_id="audio_out")
+    inputs = [input_text, description
     outputs = [audio_out]
     run_button.click(fn=gen_tts, inputs=inputs, outputs=outputs, queue=True)
     gr.Examples(examples=examples, fn=gen_tts, inputs=inputs, outputs=outputs, cache_examples=True)