Lanzamiento de Fish Audio S1: Un modelo base de audio para texto a voz de vanguardia

20 nov 2025

Zhizhuo Zhou, ML ResearcherInvestigación

Lanzamiento de Fish Audio S1: Un modelo base de audio para texto a voz de vanguardia

Conclusiones clave

Lanzamos Fish Audio S1, un modelo base de audio para texto a voz de vanguardia.
Fish Audio S1 ha sido entrenado con más de 2 millones de horas de audio mediante RLHF en línea (GRPO).
Fish Audio S1 alcanza un 0,8% de WER y un 0,4% de CER en Seed TTS Eval.
S1 admite marcadores de emoción, tono y efectos especiales de dominio abierto.

Prueba S1 ahora

Prueba el modelo gratis en Fish Audio: https://fish.audio/app/text-to-speech/

Página del modelo en Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Fish Audio S1

S1 se presenta en dos variantes:

S1 (4B): el modelo insignia con todas las funciones, disponible en el Fish Audio Playground
S1-mini (0,5B): una versión destilada para entornos con recursos limitados, disponible en Hugging Face

Ambos modelos están entrenados con RLHF en línea (GRPO) utilizando modelos de recompensa propios.

Calidad de voz de vanguardia

OpenAudio S1 está entrenado con más de 2 millones de horas de audio, combinando pares de texto y audio a gran escala con una supervisión enriquecida. Al modelar conjuntamente la información semántica y acústica en un único modelo, S1 evita la pérdida de información típica de los procesos "solo semánticos" y reduce los artefactos y los errores de palabras.

En Seed TTS Eval (con transcripción basada en GPT-4o y métricas de locutor basadas en pyannote), S1 alcanza:

WER: 0,008
CER: 0,004

S1-mini le sigue de cerca con:

WER: 0,011
CER: 0,005

OpenAudio S1 también alcanza la puntuación ELO más alta en HuggingFace TTS-Arena-V2, ocupando el puesto n.º 1 en la evaluación subjetiva humana por su naturalidad, inteligibilidad y similitud.

Control a nivel de actor de voz

Fish Audio S1 permite un control minucioso sobre la emoción y la entrega. Entrenamos nuestro propio modelo de voz a texto (que se lanzará pronto) para subtitular audio con emociones, tonos, etiquetas de locutor y eventos, y luego lo usamos para anotar más de 100 000 horas de audio para el seguimiento de instrucciones.

Puedes guiar a S1 con marcadores de emoción como (angry), (sad), (in a hurry), (chuckling) y más. Consulta la lista completa de etiquetas de emoción recomendadas aquí: https://docs.fish.audio/developer-guide/core-features/emotions

Voces globales y multilingües

OpenAudio S1 está diseñado para tener un alcance global. Admite una amplia gama de idiomas, incluyendo:

Inglés, chino, japonés, alemán, francés, español, coreano, árabe, ruso, neerlandés, italiano, polaco, portugués

Puedes mezclar idiomas en el mismo prompt, y el modelo se adaptará de forma natural al guion y al contexto.

Arquitectura, velocidad y coste

Bajo el capó, OpenAudio S1:

Utiliza la arquitectura Qwen3 como núcleo multimodal
Emplea un códec de audio interno de espíritu similar al Descript Audio Codec, entrenado desde cero
Utiliza RLHF en línea con GRPO para optimizar según las preferencias humanas

Con torch compile e inferencia optimizada, S1 se ejecuta a un factor de tiempo real de aproximadamente 1:7 en una NVIDIA RTX 4090, lo que lo hace práctico para aplicaciones interactivas.

En cuanto al precio, S1 está diseñado para ser verdaderamente accesible:

Alrededor de 15 $ por millón de bytes, aproximadamente 0,8 $ por hora de audio

Esto hace que el TTS de alta calidad sea viable incluso para cargas de trabajo de gran volumen o sensibles al presupuesto.

Clonación de voz zero-shot y few-shot a partir de muestras cortas
TTS multilingüe y translingüe
Sin dependencia de fonemas, procesando guiones arbitrarios directamente desde el texto

Primeros pasos con OpenAudio S1

Puedes probar OpenAudio S1 hoy mismo:

Fish Audio Playground (S1): https://fish.audio
S1-mini en Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Crea voces que se sienten reales

Comienza a generar audio de la más alta calidad hoy mismo.

Regístrate gratis

¿Ya tienes una cuenta? Iniciar sesión

Compartir este artículo

Zhizhuo Zhou

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.

Leer más de Zhizhuo Zhou >