Presentamos Fish-Speech: Un TTS multilingüe de nueva generación
14 oct 2025

Puntos clave
- Presentamos Fish-Speech, un TTS multilingüe autorregresivo basado en Transformer de vanguardia (SoTA)
- Utilizamos una innovadora arquitectura dual-AR para una prosodia estable y natural
- Vocoder Firefly-GAN con casi un 100% de utilización del codebook para un habla expresiva
- Entrenado con 720.000 horas de datos y diseñado para agentes de IA en tiempo real
Artículo técnico: https://arxiv.org/abs/2411.01156
Fish-Speech es un nuevo sistema de texto a voz (TTS) multilingüe que integra el razonamiento de los LLM directamente en el flujo de procesamiento de voz. En lugar de depender de frágiles reglas de grafema a fonema, utiliza modelos de lenguaje para comprender el texto de forma nativa, lo que lo hace mucho más eficaz con expresiones polifónicas, contenido en varios idiomas y entradas con gran carga contextual.
Arquitectura Dual-AR
El sistema utiliza un Slow Transformer para la estructura lingüística de alto nivel y un Fast Transformer para los detalles acústicos. Este proceso de dos etapas estabiliza la generación, mejora el uso del codebook y elimina la latencia de difusión. Con KV-cache y otras optimizaciones, Fish-Speech puede responder con una latencia del primer paquete de unos 150 ms, lo que lo hace ideal para agentes interactivos.
Vocoder Firefly-GAN
En la capa de audio, el vocoder Firefly-GAN combina convoluciones de profundidad y dilatadas con cuantificación de vectores escalares agrupados. Este diseño alcanza una utilización del codebook casi total y gestiona la síntesis emocional y multilingüe de forma eficiente, manteniendo una calidad de audio extremadamente alta.
Entrenado a escala
Fish-Speech fue entrenado con 720.000 horas de audio multilingüe de las principales familias lingüísticas. El conjunto de datos equilibrado ayuda al modelo a mantener una calidad constante en diferentes idiomas, acentos y escenarios con mezclas de lenguajes.
Calidad de clonación de voz
El sistema logra un rendimiento líder en tasa de error de palabras (WER), similitud del hablante y MOS, superando bases de referencia sólidas e incluso mejorando las transcripciones de referencia reales en WER. Preserva el timbre, la prosodia y la identidad con alta fidelidad.
Pruébalo
Fish-Speech es de código abierto en:
- GitHub: https://github.com/fishaudio/fish-speech
- Demo: https://fish.audio

