YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
English Version 🇬🇧
Model Performance Overview
Metrics:
- PESQ@200: Perceptual Evaluation of Speech Quality (higher = better).
- STOI@200: Short-Time Objective Intelligibility (closer to 1 = better).
- SI-SDR@200: Scale-Invariant Signal-to-Distortion Ratio (higher = better).
- SIM-O@200: Similarity to ground truth (higher = better).
Model | PESQ@200 | STOI@200 | SI-SDR@200 | SIM-O@200 |
---|---|---|---|---|
Original (LibriSpeech) | 4.15 | 0.997 | 27.45 ±1.09 | — |
Parler TTS Mini v1 | 1.29 ±0.49 | 0.15 ±0.12 | 25.0 ±2.9 | 0.88 ±0.03 |
Fish Speech 1.5 | 1.26 ±0.38 | 0.17 ±0.12 | 25.0 ±3.2 | 0.91 ±0.02 |
**Salt-ASR Wav-Uni 1-12k ** | 1.27 ±0.40 | 0.18 ±0.09 | 20.3 ±3.69 | 0.88 ±0.02 |
Our Solution
- Method: Extends a pre-trained LLM with audio tokens and fine-tunes on TTS and ASR tasks.
- Training:
- SpeechTokenizer (semantic + audio tokens) outperformed Encodec (loss explosions resolved with TF32 precision).
- Training time: 150 A100 GPU hours.
- Advantages: Unified LM loss for dual tasks, minimal training overhead.
Resources
- Code: GitHub Repo
- Inference Demo: Google Colab
- Reference Papers: Vitta, Valle
Русская Версия 🇷🇺
Сравнение моделей
Метрики:
- PESQ@200: Качество речи (чем выше, тем лучше).
- STOI@200: Разборчивость речи (ближе к 1 = лучше).
- SI-SDR@200: Соотношение сигнал-шум (выше = лучше).
- SIM-O@200: Сходство с эталоном (выше = лучше).
Модель | PESQ@200 | STOI@200 | SI-SDR@200 | SIM-O@200 |
---|---|---|---|---|
Original (LibriSpeech) | 4.15 | 0.997 | 27.45 ±1.09 | — |
Parler TTS Mini v1 | 1.25 ±0.49 | 0.15 ±0.12 | 25.0 ±2.9 | 0.88 ±0.03 |
Fish Speech 1.5 | 1.26 ±0.38 | 0.17 ±0.12 | 25.0 ±3.2 | 0.91 ±0.02 |
**Salt-ASR Wav-Uni 1-12k ** | 1.27 ±0.40 | 0.18 ±0.09 | 20.3 ±3.69 | 0.88 ±0.02 |
Наше решение
- Метод: Расширение словаря LLM аудиотокенами + дообучение на TTS и ASR.
- Обучение:
- SpeechTokenizer (семитические + аудиотокены) показал лучшие результаты, чем Encodec.
- Время обучения: 150 часов на A100.
- Преимущества: Единая функция потерь для двух задач, минимальные затраты.
Ресурсы
- Код: GitHub
- Демо: Google Colab
Примечание: Модель поддерживает генерацию коротких фраз на английском, немецком и французском.
- Downloads last month
- 262