Lançamento do Fish Audio S1: Um Modelo Base de Áudio Text-to-Speech de Fronteira

20 de nov. de 2025

Zhizhuo Zhou, ML ResearcherPesquisa

Lançamento do Fish Audio S1: Um Modelo Base de Áudio Text-to-Speech de Fronteira

Principais Destaques

Lançamos o Fish Audio S1, um modelo base de áudio text-to-speech de fronteira.
O Fish Audio S1 é treinado em mais de 2 milhões de horas de áudio com RLHF online (GRPO).
O Fish Audio S1 atinge 0.8% de WER e 0.4% de CER no Seed TTS Eval.
O S1 suporta marcadores de emoção, tom e efeitos especiais de domínio aberto.

Experimente o S1 Agora

Experimente o modelo gratuitamente no Fish Audio: https://fish.audio/app/text-to-speech/

Página do modelo no Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Fish Audio S1

O S1 vem em duas variantes:

S1 (4B) – modelo principal com todos os recursos, disponível no Fish Audio Playground
S1-mini (0.5B) – uma versão destilada para ambientes com restrição de recursos, disponível no Hugging Face

Ambos os modelos são treinados com RLHF online (GRPO) usando modelos de recompensa internos.

Qualidade de Voz de Última Geração

O OpenAudio S1 é treinado em mais de 2 milhões de horas de áudio, combinando pares de texto–áudio em larga escala com supervisão rica. Ao modelar conjuntamente informações semânticas e acústicas em um único modelo, o S1 evita a perda de informação típica de pipelines "apenas semânticos" e reduz artefatos e erros de palavras.

No Seed TTS Eval (com transcrição baseada em GPT-4o e métricas de locutor baseadas em pyannote), o S1 atinge:

WER: 0.008
CER: 0.004

O S1-mini segue de perto com:

WER: 0.011
CER: 0.005

O OpenAudio S1 também alcança a pontuação ELO mais alta no HuggingFace TTS-Arena-V2, ocupando o 1º lugar na avaliação subjetiva humana para naturalidade, inteligibilidade e similaridade.

Controle de Nível de Dublador

O Fish Audio S1 permite um controle refinado sobre a emoção e a entrega. Treinamos nosso próprio modelo de speech-to-text (a ser lançado em breve) para legendar áudio com emoção, tom, tags de locutor e eventos, e depois o usamos para anotar mais de 100 mil horas de áudio para seguimento de instruções (instruction-following).

Você pode guiar o S1 com marcadores de emoção como (angry), (sad), (in a hurry), (chuckling) e muito mais. Confira a lista completa de tags de emoção recomendadas aqui: https://docs.fish.audio/developer-guide/core-features/emotions

Vozes Globais e Multilíngues

O OpenAudio S1 foi projetado para alcance global. Ele suporta uma ampla gama de idiomas, incluindo:

Inglês, Chinês, Japonês, Alemão, Francês, Espanhol, Coreano, Árabe, Russo, Holandês, Italiano, Polonês, Português

Você pode misturar idiomas no mesmo prompt, e o modelo se adaptará naturalmente ao roteiro e ao contexto.

Arquitetura, Velocidade e Custo

Por baixo do capô, o OpenAudio S1:

Usa a arquitetura Qwen3 como backbone multimodal
Emprega um codec de áudio interno semelhante ao Descript Audio Codec, treinado do zero
Usa RLHF online com GRPO para otimizar para as preferências humanas

Com torch compile e inferência otimizada, o S1 roda a cerca de um fator de tempo real de 1:7 em uma NVIDIA RTX 4090, tornando-o prático para aplicações interativas.

Em relação ao preço, o S1 foi projetado para ser verdadeiramente acessível:

Cerca de $15 por milhão de bytes, aproximadamente $0.8 por hora de áudio

Isso torna o TTS de alta qualidade viável mesmo para cargas de trabalho de alto volume ou sensíveis ao orçamento.

Clonagem de voz zero-shot e few-shot a partir de amostras curtas
TTS multilíngue e cross-lingual
Sem dependência de fonemas, lidando com roteiros arbitrários diretamente do texto

Comece a usar o OpenAudio S1

Você pode experimentar o OpenAudio S1 hoje:

Fish Audio Playground (S1): https://fish.audio
S1-mini no Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Crie vozes que parecem reais

Comece a gerar áudio da mais alta qualidade hoje.

Inscreva-se grátis

Já tem uma conta? Entrar

Compartilhar este artigo

Zhizhuo Zhou

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.