Fish Audio S2

La IA de voz más expresiva
jamás creada,
ahora de código abierto.

Genera voz increíblemente realista

Prueba Fish Audio S2 ahora

Qué hace diferente a S2

Construido desde cero para expresividad, velocidad y apertura.

Latencia ultrabaja

Tiempo de respuesta inferior a 150ms que permite IA conversacional en tiempo real, doblaje en vivo y aplicaciones de voz interactivas. Rendimiento listo para producción sin comprometer la calidad.

<150ms

Control de dominio abierto y multihablante

Controla emociones, paralenguaje y más con instrucciones de texto naturales. Añade risas, susurros, suspiros y cualquier elemento expresivo. Conversaciones multihablante fluidas — cambia entre hablantes naturalmente en una sola generación.

<|speaker:1|> [giggles]

Totalmente de código abierto

Tanto el código de inferencia como los pesos del modelo son completamente de código abierto. Ejecuta S2 en tu propia infraestructura, ajústalo con tus datos e intégralo sin dependencia de proveedores. Construido para la transparencia y la innovación impulsada por la comunidad.

Built with SGLang

Construye con la API de Fish Audio S2

Genera voz realista en más de 80 idiomas con control de emociones, dirección y múltiples hablantes.

from fishaudio import FishAudio
from fishaudio.utils import save

# Initialize with your API key
client = FishAudio(api_key="your_api_key_here")

# Generate speech
audio = client.tts.convert(text="Fish Audio S2 is the best voice AI model.", model="s2-pro")
save(audio, "welcome.mp3")

Preguntas frecuentes

Fish Audio S2 Pro es un modelo líder de texto a voz con control en línea de grano fino de la prosodia y la emoción. Entrenado con más de 10 millones de horas de datos de audio en más de 80 idiomas, combina la alineación por aprendizaje por refuerzo con una arquitectura Dual-Autoregresiva (Dual-AR): un Slow AR de 4B parámetros para predicción semántica y un Fast AR de 400M parámetros para detalles acústicos. La publicación incluye pesos del modelo, código de ajuste fino y un motor de inferencia de streaming basado en SGLang.

S2 Pro permite el control localizado de la generación de voz incorporando instrucciones en lenguaje natural directamente en el texto usando la sintaxis [tag]. En lugar de depender de etiquetas predefinidas, S2 Pro acepta descripciones textuales libres — como [whisper in small voice], [professional broadcast tone] o [pitch up] — permitiendo el control de expresión abierto a nivel de palabra. Se admiten más de 15.000 etiquetas únicas, incluidas [pause], [emphasis], [laughing], [excited], [whisper], [singing] y muchas más.

En una sola GPU NVIDIA H200, S2 Pro logra un Factor de Tiempo Real (RTF) de 0,195, un tiempo hasta el primer audio de ~100ms y un rendimiento de más de 3.000 tokens acústicos por segundo manteniendo el RTF por debajo de 0,5. El motor de inferencia basado en SGLang hereda todas las optimizaciones nativas de servicio LLM — incluyendo continuous batching, paged KV cache, CUDA graph replay y prefix caching basado en RadixAttention.

S2 Pro admite más de 80 idiomas. Los idiomas de Nivel 1 (máxima calidad) incluyen japonés, inglés y chino. Los idiomas de Nivel 2 incluyen coreano, español, portugués, árabe, ruso, francés y alemán. También se admiten otros idiomas como sueco, italiano, turco, neerlandés, hindi, tailandés, vietnamita y más.

S2 Pro está licenciado bajo la Fish Audio Research License. El uso para investigación y no comercial está permitido de forma gratuita. El uso comercial requiere una licencia separada de Fish Audio — contacte a business@fish.audio para más detalles.