Oferta por tiempo limitado- 50% DE DESCUENTO ANUALCanjear
9 mar 2026Investigación

Fish Audio lanza S2 en código abierto: el control detallado se une al streaming de producción

Fish Audio lanza S2 en código abierto: el control detallado se une al streaming de producción

S2 Pro está disponible en la Fish Audio App y su código fuente está disponible a través del repositorio de GitHub del proyecto y en HuggingFace.

Fish Audio ha lanzado en código abierto S2, un modelo de texto a voz que admite un control detallado e integrado de la prosodia y la emoción mediante etiquetas de lenguaje natural como [laugh], [whispers] y [super happy]. Entrenado con más de 10 millones de horas de audio en aproximadamente 50 idiomas, el sistema combina la alineación por aprendizaje por refuerzo con una arquitectura dual-autorregresiva. El lanzamiento incluye los pesos del modelo, el código de ajuste fino (fine-tuning) y un motor de inferencia de streaming basado en SGLang.

Control detallado integrado mediante lenguaje natural

S2 permite un control integrado sobre la generación del habla al incrustar instrucciones en lenguaje natural directamente en posiciones específicas de palabras o frases dentro del texto. En lugar de depender de un conjunto fijo de etiquetas predefinidas, S2 acepta descripciones textuales de formato libre —como [whisper in small voice], [professional broadcast tone] o [pitch up]— permitiendo un control de expresión abierto a nivel de palabra.

En la prueba de Turing de audio, S2 logra una media posterior de 0,515 con reescritura de instrucciones, en comparación con el 0,417 de Seed-TTS y el 0,387 de MiniMax-Speech. En EmergentTTS-Eval, alcanza una tasa de victoria global del 81,88% frente a una base de referencia de gpt-4o-mini-tts, la más alta entre todos los modelos evaluados, incluidos los sistemas de código cerrado de Google y OpenAI.

Ejemplo del formato de entrada de S2 Ejemplo del formato de entrada de S2 que muestra un diálogo multilocutor con etiquetas integradas en lenguaje natural de formato libre para un control detallado.

Una receta unificada: Curación de datos y recompensas de RL de los mismos modelos

Una decisión arquitectónica central en S2 es que los mismos modelos utilizados para filtrar y anotar los datos de entrenamiento se reutilizan directamente como modelos de recompensa durante el aprendizaje por refuerzo:

  • Modelo de calidad del habla: puntúa el audio en dimensiones como SNR, consistencia del locutor e inteligibilidad durante el filtrado de datos; luego sirve como recompensa de preferencia acústica durante el RL.
  • Modelo ASR de transcripción enriquecida (preentrenado a partir de Qwen3-Omni-30B-A3B): genera transcripciones aumentadas con subtítulos y anotaciones paralingüísticas integradas durante la curación de datos; luego proporciona la recompensa de inteligibilidad y seguimiento de instrucciones al volver a transcribir el audio generado y compararlo con el prompt original.

Este diseño de doble propósito elimina por construcción el desajuste de distribución entre los datos de preentrenamiento y los objetivos de postentrenamiento, un problema que sigue sin resolverse en otros sistemas TTS que entrenan modelos de recompensa de forma separada de sus flujos de datos.

Dentro del modelo: Arquitectura Dual-AR

S2 se basa en un transformador de solo decodificador combinado con un códec de audio basado en RVQ (10 libros de códigos, frecuencia de cuadro de ~21 Hz). Aplanar todos los libros de códigos a lo largo del tiempo causaría una explosión de la longitud de la secuencia de 10 veces. S2 soluciona esto con una arquitectura Dual-Autoregresiva (Dual-AR):

  • Slow AR (AR Lento): opera a lo largo del eje del tiempo y predice el libro de códigos semántico principal.
  • Fast AR (AR Rápido): genera los 9 libros de códigos residuales restantes en cada paso de tiempo, reconstruyendo el detalle acústico fino.

Este diseño asimétrico —4 mil millones de parámetros a lo largo del eje del tiempo y 400 millones de parámetros a lo largo del eje de profundidad— mantiene la inferencia eficiente mientras preserva la fidelidad del audio.

Alineación por aprendizaje por refuerzo para el habla

Para el postentrenamiento, S2 utiliza la Optimización de Política Relativa de Grupo (GRPO), elegida para evitar la sobrecarga de memoria de los modelos de valor estilo PPO en contextos de audio largos. La señal de recompensa combina múltiples dimensiones, que incluyen:

  • Precisión semántica y cumplimiento de instrucciones
  • Puntuación de preferencia acústica
  • Similitud de timbre

Resultados de los Benchmarks

S2 logra resultados líderes en múltiples benchmarks públicos:

BenchmarkFish Audio S2
Seed-TTS Eval — WER (Chino)0,54% (el mejor global)
Seed-TTS Eval — WER (Inglés)0,99% (el mejor global)
Audio Turing Test (con instrucciones)0,515 media posterior
EmergentTTS-Eval — Tasa de victoria81,88% (la más alta global)
Fish Instruction Benchmark — TAR93,3%
Fish Instruction Benchmark — Calidad4,51 / 5,0
Multilingual (MiniMax Testset) — Mejor WER11 de 24 idiomas
Multilingual (MiniMax Testset) — Mejor SIM17 de 24 idiomas

En Seed-TTS Eval, S2 logra el WER más bajo entre todos los modelos evaluados, incluidos los sistemas de código cerrado: Qwen3-TTS (0,77/1,24), MiniMax Speech-02 (0,99/1,90), Seed-TTS (1,12/2,25). En el Audio Turing Test, el 0,515 supera a Seed-TTS (0,417) en un 24% y a MiniMax-Speech (0,387) en un 33%. En EmergentTTS-Eval, S2 logra resultados particularmente sólidos en paralingüística (91,61% de tasa de victoria), preguntas (84,41%) y complejidad sintáctica (83,39%).

Para una visión más amplia de cómo se evalúan las diferentes soluciones en cuanto a control de emociones, latencia y soporte multilingüe, puede consultar esta comparación independiente de herramientas de audio y voz de IA.

Streaming de producción a través de SGLang

Debido a que la arquitectura Dual-AR de S2 es estructuralmente isomórfica a los LLM autorregresivos estándar, puede heredar directamente todas las optimizaciones de servicio nativas de LLM de SGLang con modificaciones mínimas, incluyendo el procesamiento por lotes continuo (continuous batching), caché KV paginado, reproducción de grafos CUDA y almacenamiento en caché de prefijos basado en RadixAttention.

Para la clonación de voz, S2 coloca los tokens de audio de referencia en el prompt del sistema. El RadixAttention de SGLang almacena automáticamente estos estados KV, logrando una tasa promedio de aciertos de caché de prefijo del 86,4% (más del 90% en picos) cuando se reutiliza la misma voz en varias solicitudes, lo que hace que la sobrecarga de prellenado de audio de referencia sea casi insignificante.

En una sola GPU NVIDIA H200:

  • Factor de tiempo real (RTF): 0,195
  • Tiempo para el primer audio: aproximadamente 100 ms
  • Rendimiento (Throughput): más de 3.000 tokens acústicos/s manteniendo el RTF por debajo de 0,5

Para una guía paso a paso sobre cómo ejecutar S2 en GPUs H100/H200 en la nube, consulte la guía de despliegue de TTS en código abierto de Spheron.

Por qué es importante este lanzamiento

S2 no se lanza solo como un punto de control del modelo (checkpoint), sino como un sistema completo: pesos del modelo, código de ajuste fino y una pila de inferencia lista para producción.

Destacan dos decisiones de diseño. Primero, el flujo unificado de datos y recompensa elimina un problema estructural —el desajuste de distribución entre el preentrenamiento y el RL— que otros sistemas TTS no han abordado a nivel arquitectónico. Segundo, el isomorfismo estructural entre la arquitectura Dual-AR y los LLM estándar significa que S2 puede aprovechar todo el ecosistema de optimizaciones de servicio de LLM, en lugar de requerir una infraestructura de inferencia personalizada.

S2 está disponible a través del repositorio de GitHub del proyecto, SGLang-Omni, HuggingFace y una demostración interactiva en fish.audio.

Shijia Liao

Shijia LiaoX

Founder & Chief-Scientist of Fish Audio.

Leer más de Shijia Liao

Crea voces que se sienten reales

Comienza a generar audio de la más alta calidad hoy mismo.

¿Ya tienes una cuenta? Iniciar sesión