Presentamos Fish-Speech: Un TTS multilingüe de nueva generación

14 oct 2025

Presentamos Fish-Speech: Un TTS multilingüe de nueva generación

Puntos clave

Presentamos Fish-Speech, un TTS multilingüe autorregresivo basado en Transformer de vanguardia (SoTA)
Utilizamos una innovadora arquitectura dual-AR para una prosodia estable y natural
Vocoder Firefly-GAN con casi un 100% de utilización del codebook para un habla expresiva
Entrenado con 720.000 horas de datos y diseñado para agentes de IA en tiempo real

Artículo técnico: https://arxiv.org/abs/2411.01156

Fish-Speech es un nuevo sistema de texto a voz (TTS) multilingüe que integra el razonamiento de los LLM directamente en el flujo de procesamiento de voz. En lugar de depender de frágiles reglas de grafema a fonema, utiliza modelos de lenguaje para comprender el texto de forma nativa, lo que lo hace mucho más eficaz con expresiones polifónicas, contenido en varios idiomas y entradas con gran carga contextual.

Arquitectura Dual-AR

El sistema utiliza un Slow Transformer para la estructura lingüística de alto nivel y un Fast Transformer para los detalles acústicos. Este proceso de dos etapas estabiliza la generación, mejora el uso del codebook y elimina la latencia de difusión. Con KV-cache y otras optimizaciones, Fish-Speech puede responder con una latencia del primer paquete de unos 150 ms, lo que lo hace ideal para agentes interactivos.

Vocoder Firefly-GAN

En la capa de audio, el vocoder Firefly-GAN combina convoluciones de profundidad y dilatadas con cuantificación de vectores escalares agrupados. Este diseño alcanza una utilización del codebook casi total y gestiona la síntesis emocional y multilingüe de forma eficiente, manteniendo una calidad de audio extremadamente alta.

Entrenado a escala

Fish-Speech fue entrenado con 720.000 horas de audio multilingüe de las principales familias lingüísticas. El conjunto de datos equilibrado ayuda al modelo a mantener una calidad constante en diferentes idiomas, acentos y escenarios con mezclas de lenguajes.

Calidad de clonación de voz

El sistema logra un rendimiento líder en tasa de error de palabras (WER), similitud del hablante y MOS, superando bases de referencia sólidas e incluso mejorando las transcripciones de referencia reales en WER. Preserva el timbre, la prosodia y la identidad con alta fidelidad.