Lançamento do Fish Audio S1: Um Modelo Base de Áudio Text-to-Speech de Fronteira
20 de nov. de 2025

Principais Destaques
- Lançamos o Fish Audio S1, um modelo base de áudio text-to-speech de fronteira.
- O Fish Audio S1 é treinado em mais de 2 milhões de horas de áudio com RLHF online (GRPO).
- O Fish Audio S1 atinge 0.8% de WER e 0.4% de CER no Seed TTS Eval.
- O S1 suporta marcadores de emoção, tom e efeitos especiais de domínio aberto.
Experimente o S1 Agora
Experimente o modelo gratuitamente no Fish Audio: https://fish.audio/app/text-to-speech/
Página do modelo no Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini
Fish Audio S1
O S1 vem em duas variantes:
- S1 (4B) – modelo principal com todos os recursos, disponível no Fish Audio Playground
- S1-mini (0.5B) – uma versão destilada para ambientes com restrição de recursos, disponível no Hugging Face
Ambos os modelos são treinados com RLHF online (GRPO) usando modelos de recompensa internos.
Qualidade de Voz de Última Geração
O OpenAudio S1 é treinado em mais de 2 milhões de horas de áudio, combinando pares de texto–áudio em larga escala com supervisão rica. Ao modelar conjuntamente informações semânticas e acústicas em um único modelo, o S1 evita a perda de informação típica de pipelines "apenas semânticos" e reduz artefatos e erros de palavras.
No Seed TTS Eval (com transcrição baseada em GPT-4o e métricas de locutor baseadas em pyannote), o S1 atinge:
- WER: 0.008
- CER: 0.004
O S1-mini segue de perto com:
- WER: 0.011
- CER: 0.005
O OpenAudio S1 também alcança a pontuação ELO mais alta no HuggingFace TTS-Arena-V2, ocupando o 1º lugar na avaliação subjetiva humana para naturalidade, inteligibilidade e similaridade.
Controle de Nível de Dublador
O Fish Audio S1 permite um controle refinado sobre a emoção e a entrega. Treinamos nosso próprio modelo de speech-to-text (a ser lançado em breve) para legendar áudio com emoção, tom, tags de locutor e eventos, e depois o usamos para anotar mais de 100 mil horas de áudio para seguimento de instruções (instruction-following).
Você pode guiar o S1 com marcadores de emoção como (angry), (sad), (in a hurry), (chuckling) e muito mais. Confira a lista completa de tags de emoção recomendadas aqui: https://docs.fish.audio/developer-guide/core-features/emotions
Vozes Globais e Multilíngues
O OpenAudio S1 foi projetado para alcance global. Ele suporta uma ampla gama de idiomas, incluindo:
Inglês, Chinês, Japonês, Alemão, Francês, Espanhol, Coreano, Árabe, Russo, Holandês, Italiano, Polonês, Português
Você pode misturar idiomas no mesmo prompt, e o modelo se adaptará naturalmente ao roteiro e ao contexto.
Arquitetura, Velocidade e Custo
Por baixo do capô, o OpenAudio S1:
- Usa a arquitetura Qwen3 como backbone multimodal
- Emprega um codec de áudio interno semelhante ao Descript Audio Codec, treinado do zero
- Usa RLHF online com GRPO para otimizar para as preferências humanas
Com torch compile e inferência otimizada, o S1 roda a cerca de um fator de tempo real de 1:7 em uma NVIDIA RTX 4090, tornando-o prático para aplicações interativas.
Em relação ao preço, o S1 foi projetado para ser verdadeiramente acessível:
- Cerca de $15 por milhão de bytes, aproximadamente $0.8 por hora de áudio
Isso torna o TTS de alta qualidade viável mesmo para cargas de trabalho de alto volume ou sensíveis ao orçamento.
- Clonagem de voz zero-shot e few-shot a partir de amostras curtas
- TTS multilíngue e cross-lingual
- Sem dependência de fonemas, lidando com roteiros arbitrários diretamente do texto
Comece a usar o OpenAudio S1
Você pode experimentar o OpenAudio S1 hoje:
- Fish Audio Playground (S1): https://fish.audio
- S1-mini no Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini
