Spaces:

michecosta
/

kokoromic

Running

App Files Files Community

michecosta commited on 19 days ago

Commit

ff9c7de

verified ·

1 Parent(s): 1663b08

Create app.py

Browse files

Files changed (1) hide show

app.py +125 -0

app.py ADDED Viewed

	@@ -0,0 +1,125 @@

+import streamlit as st
+import torch
+from models import build_model
+from kokoro import generate
+from scipy.io.wavfile import write as write_wav
+import os
+import re
+import numpy as np
+from phonemizer import phonemize
+from phonemizer.backend.espeak.espeak import EspeakBackend
+import subprocess
+@st.cache_resource
+def load_model():
+    device = 'cuda' if torch.cuda.is_available() else 'cpu'
+    model = build_model('kokoro-v0_19.pth', device)
+    return model, device
+@st.cache_data
+def load_voicepack(voice_name, device):
+    try:
+        voicepack = torch.load(f'voices/{voice_name}.pt', weights_only=True).to(device)
+        return voicepack
+    except FileNotFoundError:
+        st.error(f"Errore: La voce '{voice_name}' non è stata trovata.")
+        return None
+def get_espeak_path():
+    """Trova il percorso di espeak."""
+    try:
+        result = subprocess.run(['which', 'espeak'], capture_output=True, text=True, check=True)
+        return result.stdout.strip()
+    except subprocess.CalledProcessError:
+        st.error("Errore: espeak non trovato. Assicurati che espeak sia installato e nel PATH.")
+        return None
+def count_tokens(text, lang='en-us'):
+    """Conta i token di un testo usando phonemizer."""
+    espeak_path = get_espeak_path()
+    if not espeak_path:
+        return 0
+    os.environ['PHONEMIZER_ESPEAK_PATH'] = espeak_path
+    out_ps = phonemize(text, backend='espeak', language=lang, preserve_punctuation=True, with_stress=True)
+    ps = ' '.join(out_ps).replace('  ', ' ').strip()
+    ps = [x for x in ps.split(' ') if x != '']
+    return len(ps)
+def split_text(text, max_tokens=500, lang='en-us'):
+    """Suddivide il testo in segmenti più piccoli in base al numero di token."""
+    sentences = re.split(r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', text)
+    segments = []
+    current_segment = ""
+    for sentence in sentences:
+        sentence_tokens = count_tokens(sentence, lang)
+        if count_tokens(current_segment, lang) + sentence_tokens <= max_tokens:
+            current_segment += " " + sentence if current_segment else sentence
+        else:
+            if current_segment:  # Aggiungi solo se non è vuoto
+                segments.append(current_segment.strip())
+            current_segment = sentence
+    if current_segment:
+        segments.append(current_segment.strip())
+    return segments
+def generate_audio(model, text, voicepack, voice_name):
+    """Genera audio da testo, gestendo la suddivisione del testo."""
+    if voice_name[0] == 'a':
+       lang = 'en-us'
+    elif voice_name[0] == 'b':
+       lang = 'en-gb'
+    else:
+       lang = 'en-us'
+    segments = split_text(text, lang=lang)
+    all_audio = []
+    for segment in segments:
+        audio, _ = generate(model, segment, voicepack, lang=voice_name[0])
+        all_audio.append(audio)
+    if all_audio:
+        return np.concatenate(all_audio)
+    else:
+        return None
+def main():
+    st.title("Kokoro TTS Demo")
+    model, device = load_model()
+    voice_options = [
+        'af', 'af_bella', 'af_sarah', 'am_adam', 'am_michael',
+        'bf_emma', 'bf_isabella', 'bm_george', 'bm_lewis',
+        'af_nicole', 'af_sky'
+    ]
+    selected_voice = st.selectbox("Seleziona una voce", voice_options)
+    input_text = st.text_area("Inserisci il testo da convertire in audio:")
+    if st.button("Genera Audio"):
+        if not input_text:
+            st.warning("Inserisci del testo.")
+            return
+        voicepack = load_voicepack(selected_voice, device)
+        if voicepack is None:
+            return
+        with st.spinner("Generando audio..."):
+            audio = generate_audio(model, input_text, voicepack, selected_voice)
+        if audio is not None:
+            st.audio(audio, sample_rate=24000)
+            st.success("Audio generato con successo!")
+            # Salva l'audio in un file temporaneo
+            temp_file = "temp_audio.wav"
+            write_wav(temp_file, 24000, audio)
+            with open(temp_file, "rb") as f:
+                st.download_button(
+                    label="Scarica Audio",
+                    data=f,
+                    file_name="output.wav",
+                    mime="audio/wav"
+                )
+            os.remove(temp_file)
+if __name__ == "__main__":
+    main()