Pedro_Lab_XTTS_demo

Paused

App Files Files

Blakus commited on 27 days ago

Commit

f43fe94

verified ·

1 Parent(s): b4443ee

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -143

app.py CHANGED Viewed

@@ -185,9 +185,7 @@ class PedroTTSApp:
         """Cargar audios de referencia desde dataset privado"""
         return self.load_private_reference_audios()
-    def generate_speech(self, text, language, reference_audio, speed,
-                       temperature, length_penalty, repetition_penalty,
-                       top_k, top_p, enable_text_splitting):
         """Genera el audio de voz con configuración avanzada"""
         try:
             if not text or len(text.strip()) < 2:
@@ -215,6 +213,12 @@ class PedroTTSApp:
             start_time = time.time()
             # Usar parámetros con conversión explícita a float para evitar errores de tipo
             out = self.model.inference(
                 text,
@@ -468,6 +472,18 @@ def create_interface():
                                     info="Velocidad de reproducción del audio"
                                 )
                                 text_input = gr.Textbox(
                                     label="📝 Texto a sintetizar",
                                     placeholder="Escriba el texto aquí...",
@@ -493,143 +509,6 @@ def create_interface():
                             variant="primary",
                             size="lg"
                         )
-                    with gr.TabItem("⚙️ Configuración Avanzada"):
-                        gr.Markdown("### 🔧 Parámetros Avanzados de Síntesis")
-                        gr.Markdown("Ajuste estos valores para obtener diferentes características en la voz generada. ⚠️SOLO PARA USUARIOS AVANZADOS⚠️")
-                        with gr.Row():
-                            with gr.Column():
-                                gr.Markdown("#### 🎚️ Parámetros de Calidad")
-                                temperature = gr.Slider(
-                                    0.1, 1.5, 0.65,
-                                    label="🌡️ Temperatura",
-                                    info="Controla la creatividad. Valores bajos = más estable, valores altos = más expresivo"
-                                )
-                                length_penalty = gr.Slider(
-                                    -10.0, 10.0, 1.0,
-                                    label="📏 Length Penalty",
-                                    info="Controla la longitud de las pausas y entonación"
-                                )
-                                repetition_penalty = gr.Slider(
-                                    1.0, 10.0, 2.0, 0.1,
-                                    label="🔄 Repetition Penalty",
-                                    info="Evita repeticiones. Valores altos reducen repeticiones"
-                                )
-                            with gr.Column():
-                                gr.Markdown("#### 🎯 Parámetros de Sampling")
-                                top_k = gr.Slider(
-                                    1, 100, 50, 1,
-                                    label="🔝 Top-K",
-                                    info="Número de tokens más probables a considerar"
-                                )
-                                top_p = gr.Slider(
-                                    0.01, 1.0, 0.8, 0.01,
-                                    label="📊 Top-P (Nucleus)",
-                                    info="Probabilidad acumulada para sampling nuclear"
-                                )
-                            with gr.Column():
-                                gr.Markdown("#### 🔘 Opciones de Procesamiento")
-                                enable_text_splitting = gr.Checkbox(
-                                    value=True,
-                                    label="✂️ División por puntuación",
-                                    info="Divide texto en oraciones por puntuación para mejor entonación"
-                                )
-                        with gr.Row():
-                            gr.Markdown("#### 🎛️ ¿No quieres modificar estos parámetros? No hay problema, puedes usar los presets de configuración")
-                        with gr.Row():
-                            conservative_btn = gr.Button(
-                                "🛡️ Conservador",
-                                variant="primary",
-                                elem_classes="preset-button-selected"
-                            )
-                            balanced_btn = gr.Button(
-                                "⚖️ Balanceado",
-                                variant="secondary",
-                                elem_classes="preset-button-unselected"
-                            )
-                            creative_btn = gr.Button(
-                                "🎨 Creativo",
-                                variant="secondary",
-                                elem_classes="preset-button-unselected"
-                            )
-                        # Preset values - ensuring all values are proper floats to avoid type errors
-                        def set_conservative():
-                            return 0.45, 0.5, 1.8, 30.0, 0.75, True
-                        def set_balanced():
-                            return 0.65, 1.0, 2.0, 50.0, 0.8, True
-                        def set_creative():
-                            return 0.85, 1.5, 2.5, 70.0, 0.9, True
-                        def update_preset_buttons_conservative():
-                            return (
-                                gr.update(variant="primary", elem_classes=["preset-button-selected"]),
-                                gr.update(variant="secondary", elem_classes=["preset-button-unselected"]),
-                                gr.update(variant="secondary", elem_classes=["preset-button-unselected"])
-                            )
-                        def update_preset_buttons_balanced():
-                            return (
-                                gr.update(variant="secondary", elem_classes=["preset-button-unselected"]),
-                                gr.update(variant="primary", elem_classes=["preset-button-selected"]),
-                                gr.update(variant="secondary", elem_classes=["preset-button-unselected"])
-                            )
-                        def update_preset_buttons_creative():
-                            return (
-                                gr.update(variant="secondary", elem_classes=["preset-button-unselected"]),
-                                gr.update(variant="secondary", elem_classes=["preset-button-unselected"]),
-                                gr.update(variant="primary", elem_classes=["preset-button-selected"])
-                            )
-                        def apply_conservative_preset():
-                            values = set_conservative()
-                            buttons = update_preset_buttons_conservative()
-                            return values + buttons
-                        def apply_balanced_preset():
-                            values = set_balanced()
-                            buttons = update_preset_buttons_balanced()
-                            return values + buttons
-                        def apply_creative_preset():
-                            values = set_creative()
-                            buttons = update_preset_buttons_creative()
-                            return values + buttons
-                        conservative_btn.click(
-                            fn=apply_conservative_preset,
-                            outputs=[temperature, length_penalty, repetition_penalty,
-                                    top_k, top_p, enable_text_splitting,
-                                    conservative_btn, balanced_btn, creative_btn]
-                        )
-                        balanced_btn.click(
-                            fn=apply_balanced_preset,
-                            outputs=[temperature, length_penalty, repetition_penalty,
-                                    top_k, top_p, enable_text_splitting,
-                                    conservative_btn, balanced_btn, creative_btn]
-                        )
-                        creative_btn.click(
-                            fn=apply_creative_preset,
-                            outputs=[temperature, length_penalty, repetition_penalty,
-                                    top_k, top_p, enable_text_splitting,
-                                    conservative_btn, balanced_btn, creative_btn]
-                        )
                 with gr.Column(elem_classes="credits-section"):
                     gr.HTML("""
@@ -643,9 +522,7 @@ def create_interface():
                 generate_btn.click(
                     fn=app.generate_speech,
-                    inputs=[text_input, language, reference, speed,
-                           temperature, length_penalty, repetition_penalty,
-                           top_k, top_p, enable_text_splitting],
                     outputs=[audio_output, metrics_output]
                 )

         """Cargar audios de referencia desde dataset privado"""
         return self.load_private_reference_audios()
+    def generate_speech(self, text, language, reference_audio, speed, temperature, enable_text_splitting):
         """Genera el audio de voz con configuración avanzada"""
         try:
             if not text or len(text.strip()) < 2:
             start_time = time.time()
+            # Valores fijos para los parámetros no expuestos
+            length_penalty = 1.0
+            repetition_penalty = 5.0
+            top_k = 50.0
+            top_p = 0.85
             # Usar parámetros con conversión explícita a float para evitar errores de tipo
             out = self.model.inference(
                 text,
                                     info="Velocidad de reproducción del audio"
                                 )
+                                temperature = gr.Slider(
+                                    0.1, 1.5, 0.75, 0.05,
+                                    label="🎨 Creatividad",
+                                    info="🛡️ Más estable pero menos creativo/expresivo ← → 🎭 Menos estable pero más creativo/expresivo"
+                                )
+                                enable_text_splitting = gr.Checkbox(
+                                    value=True,
+                                    label="📖 Segmentación inteligente",
+                                    info="✅ Puede generar mejor coherencia con textos largos | ⚠️ A costa de estabilidad o pequeños errores"
+                                )
                                 text_input = gr.Textbox(
                                     label="📝 Texto a sintetizar",
                                     placeholder="Escriba el texto aquí...",
                             variant="primary",
                             size="lg"
                         )
                 with gr.Column(elem_classes="credits-section"):
                     gr.HTML("""
                 generate_btn.click(
                     fn=app.generate_speech,
+                    inputs=[text_input, language, reference, speed, temperature, enable_text_splitting],
                     outputs=[audio_output, metrics_output]
                 )