Fish Audio libera el código de S2: el control detallado se une al streaming de producción

9 mar 2026

Código abiertoInvestigación

Fish Audio libera el código de S2: el control detallado se une al streaming de producción

El código abierto de S2 está disponible a través del repositorio de GitHub del proyecto y de HuggingFace.

Fish Audio ha liberado el código de S2, un modelo de texto a voz que admite un control detallado en línea de la prosodia y la emoción mediante etiquetas de lenguaje natural como [laugh], [whispers] y [super happy]. Entrenado con más de 10 millones de horas de audio en aproximadamente 50 idiomas, el sistema combina la alineación de aprendizaje por refuerzo con una arquitectura autorregresiva dual. El lanzamiento incluye los pesos del modelo, el código de ajuste fino y un motor de inferencia de streaming basado en SGLang.

Control detallado en línea mediante lenguaje natural

S2 permite el control en línea sobre la generación de voz al integrar instrucciones de lenguaje natural directamente en posiciones específicas de palabras o frases dentro del texto. En lugar de depender de un conjunto fijo de etiquetas predefinidas, S2 acepta descripciones textuales de formato libre —como [whisper in small voice], [professional broadcast tone] o [pitch up]— permitiendo un control de la expresión abierto a nivel de palabra.

En el Audio Turing Test, S2 logra una media posterior de 0.515 con reescritura de instrucciones, en comparación con el 0.417 de Seed-TTS y el 0.387 de MiniMax-Speech. En EmergentTTS-Eval, alcanza una tasa de victoria global del 81.88% frente a una línea de base de gpt-4o-mini-tts, la más alta entre todos los modelos evaluados, incluidos los sistemas de código cerrado de Google y OpenAI.

Ejemplo del formato de entrada de S2 Ejemplo del formato de entrada de S2 que muestra un diálogo multi-hablante con etiquetas en línea de lenguaje natural de formato libre para un control detallado.

Una receta unificada: Curación de datos y recompensas de RL a partir de los mismos modelos

Una decisión arquitectónica fundamental en S2 es que los mismos modelos utilizados para filtrar y anotar los datos de entrenamiento se reutilizan directamente como modelos de recompensa durante el aprendizaje por refuerzo (RL):

El modelo de calidad de voz califica el audio en dimensiones como SNR, consistencia del hablante e inteligibilidad durante el filtrado de datos; luego sirve como la recompensa de preferencia acústica durante el RL.
El modelo ASR de transcripción enriquecida (pre-entrenamiento continuado de Qwen3-Omni-30B-A3B) genera transcripciones aumentadas con subtítulos y anotaciones paralingüísticas en línea durante la curación de datos; luego proporciona la recompensa de inteligibilidad y seguimiento de instrucciones al volver a transcribir el audio generado y compararlo con el prompt original.

Este diseño de doble propósito elimina por construcción el desajuste de distribución entre los datos de pre-entrenamiento y los objetivos de post-entrenamiento, un problema que sigue sin resolverse en otros sistemas TTS que entrenan modelos de recompensa por separado de sus flujos de datos.

Dentro del modelo: Arquitectura Dual-AR

S2 se basa en un transformador de solo decodificador combinado con un códec de audio basado en RVQ (10 libros de códigos, frecuencia de cuadro de ~21 Hz). Aplanar todos los libros de códigos a lo largo del tiempo causaría una explosión de la longitud de la secuencia de 10 veces. S2 aborda esto con una arquitectura Autorregresiva Dual (Dual-AR):

AR Lento (Slow AR) opera a lo largo del eje del tiempo y predice el libro de códigos semántico principal.
AR Rápido (Fast AR) genera los 9 libros de códigos residuales restantes en cada paso de tiempo, reconstruyendo el detalle acústico detallado.

Este diseño asimétrico —4 mil millones de parámetros a lo largo del eje del tiempo, 400 millones a lo largo del eje de profundidad— mantiene la inferencia eficiente mientras preserva la fidelidad del audio.

Alineación por aprendizaje por refuerzo para el habla

Para el post-entrenamiento, S2 utiliza la Optimización de Política Relativa de Grupo (GRPO), elegida para evitar la sobrecarga de memoria de los modelos de valor estilo PPO en contextos de audio largos. La señal de recompensa combina múltiples dimensiones, incluyendo:

Precisión semántica y cumplimiento de instrucciones
Puntuación de preferencia acústica
Similitud de timbre

Resultados de Benchmark

S2 logra resultados líderes en múltiples puntos de referencia públicos:

Benchmark	Fish Audio S2
Seed-TTS Eval — WER (Chino)	0.54% (mejor global)
Seed-TTS Eval — WER (Inglés)	0.99% (mejor global)
Audio Turing Test (con instrucción)	0.515 media posterior
EmergentTTS-Eval — Tasa de victoria	81.88% (más alta global)
Fish Instruction Benchmark — TAR	93.3%
Fish Instruction Benchmark — Calidad	4.51 / 5.0
Multilingüe (MiniMax Testset) — Mejor WER	11 de 24 idiomas
Multilingüe (MiniMax Testset) — Mejor SIM	17 de 24 idiomas

En Seed-TTS Eval, S2 logra el WER más bajo entre todos los modelos evaluados, incluidos los sistemas de código cerrado: Qwen3-TTS (0.77/1.24), MiniMax Speech-02 (0.99/1.90), Seed-TTS (1.12/2.25). En el Audio Turing Test, 0.515 supera a Seed-TTS (0.417) en un 24% y a MiniMax-Speech (0.387) en un 33%. En EmergentTTS-Eval, S2 logra resultados particularmente sólidos en paralingüística (91.61% de tasa de victoria), preguntas (84.41%) y complejidad sintáctica (83.39%).

Streaming de producción a través de SGLang

Debido a que la arquitectura Dual-AR de S2 es estructuralmente isomórfica a los LLM autorregresivos estándar, puede heredar directamente todas las optimizaciones de servicio nativas de LLM de SGLang con modificaciones mínimas, incluyendo el procesamiento por lotes continuo, caché KV paginada, reajuste de gráficos CUDA y almacenamiento en caché de prefijos basado en RadixAttention.

Para la clonación de voz, S2 coloca tokens de audio de referencia en el prompt del sistema. RadixAttention de SGLang almacena automáticamente estos estados KV, logrando una tasa media de aciertos de caché de prefijos del 86.4% (más del 90% en picos) cuando se reutiliza la misma voz en varias solicitudes, lo que hace que la sobrecarga de pre-llenado del audio de referencia sea casi insignificante.

En una sola GPU NVIDIA H200:

Factor de tiempo real (RTF): 0.195
Tiempo para el primer audio: aproximadamente 100 ms
Rendimiento: más de 3,000 tokens acústicos/s manteniendo el RTF por debajo de 0.5

Por qué es importante este lanzamiento

S2 no se publica solo como un punto de control del modelo, sino como un sistema completo: pesos del modelo, código de ajuste fino y un conjunto de inferencia listo para producción.

Destacan dos opciones de diseño. Primero, el flujo unificado de datos y recompensa elimina un problema estructural —el desajuste de distribución entre el pre-entrenamiento y el RL— que otros sistemas TTS no han abordado a nivel arquitectónico. Segundo, el isomorfismo estructural entre la arquitectura Dual-AR y los LLM estándar significa que S2 puede aprovechar todo el ecosistema de optimizaciones de servicio de LLM, en lugar de requerir una infraestructura de inferencia personalizada.

S2 está disponible a través del repositorio de GitHub del proyecto, SGLang-Omni, HuggingFace y una demostración interactiva en fish.audio.

Preguntas Frecuentes

S2 admite de forma nativa la generación multi-hablante y multi-turno. Al integrar etiquetas de hablante e instrucciones en línea de lenguaje natural directamente en la entrada, S2 entrelaza múltiples voces mientras mantiene un timbre constante, iguala la prosodia y respeta las señales emocionales de cada hablante, lo que lo hace adecuado para generar conversaciones completas, no solo narraciones de una sola voz.

Sí. S2 está disponible a través de la API de Fish Audio en fish.audio. Los pesos completos del modelo, el código de ajuste fino y el motor de inferencia basado en SGLang también son de código abierto en GitHub (github.com/fishaudio/fish-speech) y HuggingFace (huggingface.co/fishaudio/s2-pro) para el auto-hospedaje.

S2 acepta etiquetas en línea de lenguaje natural de formato libre en lugar de un conjunto fijo predefinido, por lo que no estás limitado a un vocabulario cerrado. Etiquetas como [laugh], [whispers], [super happy], [professional broadcast tone] o [pitch up] se pueden insertar en cualquier posición de palabra o frase. Dado que el sistema está entrenado con descripciones abiertas, las etiquetas nuevas se generalizan bien más allá de los ejemplos vistos durante el entrenamiento.

S2 está entrenado en más de 10 millones de horas de audio que abarcan aproximadamente 80 idiomas. En el conjunto de pruebas multilingüe de MiniMax —que cubre 24 idiomas— S2 logra el mejor WER en 11 idiomas y la mejor similitud de hablante en 17 idiomas, superando tanto a MiniMax como a ElevenLabs en la mayoría del benchmark: Árabe, cantonés, chino, checo, holandés, inglés, finlandés, francés, alemán, griego, hindi, indonesio, italiano, japonés, coreano, polaco, portugués, rumano, ruso, español, tailandés, turco, ucraniano, vietnamita.