Lanzamiento de Fish Audio S1: Un modelo base de audio para texto a voz de vanguardia
20 nov 2025

Conclusiones clave
- Lanzamos Fish Audio S1, un modelo base de audio para texto a voz de vanguardia.
- Fish Audio S1 ha sido entrenado con más de 2 millones de horas de audio mediante RLHF en línea (GRPO).
- Fish Audio S1 alcanza un 0,8% de WER y un 0,4% de CER en Seed TTS Eval.
- S1 admite marcadores de emoción, tono y efectos especiales de dominio abierto.
Prueba S1 ahora
Prueba el modelo gratis en Fish Audio: https://fish.audio/app/text-to-speech/
Página del modelo en Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini
Fish Audio S1
S1 se presenta en dos variantes:
- S1 (4B): el modelo insignia con todas las funciones, disponible en el Fish Audio Playground
- S1-mini (0,5B): una versión destilada para entornos con recursos limitados, disponible en Hugging Face
Ambos modelos están entrenados con RLHF en línea (GRPO) utilizando modelos de recompensa propios.
Calidad de voz de vanguardia
OpenAudio S1 está entrenado con más de 2 millones de horas de audio, combinando pares de texto y audio a gran escala con una supervisión enriquecida. Al modelar conjuntamente la información semántica y acústica en un único modelo, S1 evita la pérdida de información típica de los procesos "solo semánticos" y reduce los artefactos y los errores de palabras.
En Seed TTS Eval (con transcripción basada en GPT-4o y métricas de locutor basadas en pyannote), S1 alcanza:
- WER: 0,008
- CER: 0,004
S1-mini le sigue de cerca con:
- WER: 0,011
- CER: 0,005
OpenAudio S1 también alcanza la puntuación ELO más alta en HuggingFace TTS-Arena-V2, ocupando el puesto n.º 1 en la evaluación subjetiva humana por su naturalidad, inteligibilidad y similitud.
Control a nivel de actor de voz
Fish Audio S1 permite un control minucioso sobre la emoción y la entrega. Entrenamos nuestro propio modelo de voz a texto (que se lanzará pronto) para subtitular audio con emociones, tonos, etiquetas de locutor y eventos, y luego lo usamos para anotar más de 100 000 horas de audio para el seguimiento de instrucciones.
Puedes guiar a S1 con marcadores de emoción como (angry), (sad), (in a hurry), (chuckling) y más. Consulta la lista completa de etiquetas de emoción recomendadas aquí: https://docs.fish.audio/developer-guide/core-features/emotions
Voces globales y multilingües
OpenAudio S1 está diseñado para tener un alcance global. Admite una amplia gama de idiomas, incluyendo:
Inglés, chino, japonés, alemán, francés, español, coreano, árabe, ruso, neerlandés, italiano, polaco, portugués
Puedes mezclar idiomas en el mismo prompt, y el modelo se adaptará de forma natural al guion y al contexto.
Arquitectura, velocidad y coste
Bajo el capó, OpenAudio S1:
- Utiliza la arquitectura Qwen3 como núcleo multimodal
- Emplea un códec de audio interno de espíritu similar al Descript Audio Codec, entrenado desde cero
- Utiliza RLHF en línea con GRPO para optimizar según las preferencias humanas
Con torch compile e inferencia optimizada, S1 se ejecuta a un factor de tiempo real de aproximadamente 1:7 en una NVIDIA RTX 4090, lo que lo hace práctico para aplicaciones interactivas.
En cuanto al precio, S1 está diseñado para ser verdaderamente accesible:
- Alrededor de 15 $ por millón de bytes, aproximadamente 0,8 $ por hora de audio
Esto hace que el TTS de alta calidad sea viable incluso para cargas de trabajo de gran volumen o sensibles al presupuesto.
- Clonación de voz zero-shot y few-shot a partir de muestras cortas
- TTS multilingüe y translingüe
- Sin dependencia de fonemas, procesando guiones arbitrarios directamente desde el texto
Primeros pasos con OpenAudio S1
Puedes probar OpenAudio S1 hoy mismo:
- Fish Audio Playground (S1): https://fish.audio
- S1-mini en Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

