9 de mar. de 2026Pesquisa

Fish Audio Disponibiliza S2 em Código Aberto: Controle de Grão Fino Encontra Streaming de Produção

O S2 Pro está disponível no Fish Audio App e o seu código aberto está disponível através do repositório GitHub do projeto e no HuggingFace.

A Fish Audio lançou em código aberto o S2, um modelo de conversão de texto em fala (text-to-speech) que suporta controle in-line de grão fino de prosódia e emoção usando tags de linguagem natural como [laugh], [whispers] e [super happy]. Treinado em mais de 10 milhões de horas de áudio em aproximadamente 50 idiomas, o sistema combina alinhamento por aprendizagem por reforço com uma arquitetura auto-regressiva dupla. O lançamento inclui pesos do modelo, código de ajuste fino (fine-tuning) e um motor de inferência de streaming baseado em SGLang.

Controle In-line de Grão Fino via Linguagem Natural

O S2 permite Controle in-line sobre a geração de fala ao incorporar instruções de linguagem natural diretamente em posições específicas de palavras ou frases no texto. Em vez de depender de um conjunto fixo de tags predefinidas, o S2 aceita descrições textuais de forma livre — como [whisper in small voice], [professional broadcast tone] ou [pitch up] — permitindo o controle de expressão em aberto ao nível da palavra.

No Audio Turing Test, o S2 alcança uma média posterior de 0,515 com reescrita de instruções, em comparação com 0,417 para o Seed-TTS e 0,387 para o MiniMax-Speech. No EmergentTTS-Eval, atinge uma taxa de vitória global de 81,88% em relação a um baseline gpt-4o-mini-tts — a mais alta entre todos os modelos avaliados, incluindo sistemas de código fechado do Google e da OpenAI.

Exemplo do formato de entrada do S2 Exemplo do formato de entrada do S2 mostrando um diálogo multi-locutor com tags in-line de linguagem natural de forma livre para controle de grão fino.

Uma Receita Unificada: Curadoria de Dados e Recompensas de RL dos Mesmos Modelos

Uma decisão arquitetônica central no S2 é que os mesmos modelos usados para filtrar e anotar os dados de treinamento são reutilizados diretamente como modelos de recompensa durante a aprendizagem por reforço (RL):

Modelo de qualidade de fala avalia o áudio em dimensões como SNR, consistência do locutor e inteligibilidade durante a filtragem de dados — servindo depois como a recompensa de preferência acústica durante a RL.
Modelo ASR de transcrição rica (pré-treinado a partir do Qwen3-Omni-30B-A3B) gera transcrições aumentadas por legendas com anotações paralinguísticas in-line durante a curadoria de dados — fornecendo depois a recompensa de inteligibilidade e seguimento de instruções ao re-transcrever o áudio gerado e compará-lo com o prompt original.

Este design de duplo propósito elimina por construção o desajuste de distribuição entre os dados de pré-treinamento e os objetivos de pós-treinamento — um problema que permanece sem solução em outros sistemas de TTS que treinam modelos de recompensa separadamente de seus pipelines de dados.

Por Dentro do Modelo: Arquitetura Dual-AR

O S2 baseia-se num transformer apenas decodificador combinado com um codec de áudio baseado em RVQ (10 codebooks, taxa de quadros de ~21 Hz). Achatar todos os codebooks ao longo do tempo causaria uma explosão de 10 vezes no comprimento da sequência. O S2 resolve isso com uma arquitetura Auto-regressiva Dupla (Dual-AR):

AR Lenta (Slow AR) opera ao longo do eixo temporal e prevê o codebook semântico primário.
AR Rápida (Fast AR) gera os 9 codebooks residuais restantes em cada passo de tempo, reconstruindo detalhes acústicos de grão fino.

Este design assimétrico — 4B de parâmetros ao longo do eixo do tempo, 400M de parâmetros ao longo do eixo de profundidade — mantém a inferência eficiente enquanto preserva a fidelidade do áudio.

Alinhamento de Aprendizagem por Reforço para Fala

Para o pós-treinamento, o S2 utiliza a Group Relative Policy Optimization (GRPO), escolhida para evitar a sobrecarga de memória dos modelos de valor do tipo PPO em contextos de áudio longos. O sinal de recompensa combina múltiplas dimensões, incluindo:

Acurácia semântica e adesão a instruções
Pontuação de preferência acústica
Similaridade de timbre

Resultados de Benchmark

O S2 alcança resultados de liderança em múltiplos benchmarks públicos:

Benchmark	Fish Audio S2
Seed-TTS Eval — WER (Chinês)	0,54% (melhor geral)
Seed-TTS Eval — WER (Inglês)	0,99% (melhor geral)
Audio Turing Test (com instrução)	0,515 média posterior
EmergentTTS-Eval — Taxa de Vitória	81,88% (maior geral)
Fish Instruction Benchmark — TAR	93,3%
Fish Instruction Benchmark — Qualidade	4,51 / 5,0
Multilíngue (MiniMax Testset) — Melhor WER	11 de 24 idiomas
Multilíngue (MiniMax Testset) — Melhor SIM	17 de 24 idiomas

No Seed-TTS Eval, o S2 atinge o menor WER entre todos os modelos avaliados, incluindo sistemas de código fechado: Qwen3-TTS (0,77/1,24), MiniMax Speech-02 (0,99/1,90), Seed-TTS (1,12/2,25). No Audio Turing Test, 0,515 supera o Seed-TTS (0,417) em 24% e o MiniMax-Speech (0,387) em 33%. No EmergentTTS-Eval, o S2 alcança resultados particularmente fortes em paralinguística (taxa de vitória de 91,61%), perguntas (84,41%) e complexidade sintática (83,39%).

Para uma visão mais ampla de como diferentes soluções são avaliadas em relação ao controle de emoção, latência e suporte multilíngue, você pode consultar esta comparação independente de ferramentas de voz e áudio de IA.

Streaming de Produção via SGLang

Como a arquitetura Dual-AR do S2 é estruturalmente isomórfica aos LLMs auto-regressivos padrão, ela pode herdar diretamente todas as otimizações de serviço nativas de LLM do SGLang com modificações mínimas — incluindo batching contínuo, paged KV cache, replays de gráficos CUDA e cache de prefixo baseado em RadixAttention.

Para clonagem de voz, o S2 coloca tokens de áudio de referência no prompt do sistema. O RadixAttention do SGLang armazena automaticamente esses estados KV em cache, alcançando uma taxa média de acerto no cache de prefixo de 86,4% (mais de 90% no pico) quando a mesma voz é reutilizada entre as solicitações — tornando a sobrecarga de preenchimento do áudio de referência quase insignificante.

Em uma única GPU NVIDIA H200:

Fator de Tempo Real (RTF): 0,195
Tempo para o primeiro áudio: aproximadamente 100 ms
Taxa de transferência: mais de 3.000 tokens acústicos/s enquanto mantém o RTF abaixo de 0,5

Por Que Este Lançamento é Importante

O S2 é lançado não apenas como um checkpoint de modelo, mas como um sistema completo: pesos de modelo, código de ajuste fino e uma pilha de inferência pronta para produção.

Duas escolhas de design se destacam. Primeiro, o pipeline unificado de dados e recompensa elimina um problema estrutural — o desajuste de distribuição entre o pré-treinamento e a RL — que outros sistemas de TTS não abordaram a nível arquitetônico. Segundo, o isomorfismo estrutural entre a arquitetura Dual-AR e os LLMs padrão significa que o S2 pode alavancar todo o ecossistema de otimizações de serviço de LLM, em vez de exigir uma infraestrutura de inferência personalizada.

O S2 está disponível através do repositório GitHub do projeto, SGLang-Omni, HuggingFace e demonstração interativa em fish.audio.

Shijia Liao

Founder & Chief-Scientist of Fish Audio.

Crie vozes que parecem reais

Comece a gerar áudio da mais alta qualidade hoje.

Inscreva-se grátis

Já tem uma conta? Entrar

Last Updates

Modificador de Voz de IA da Fish Audio — guia completo para criadores de conteúdo

22 de abr. de 2026GUIA

Como Usar um Modificador de Voz de IA — Guia Completo para Criadores de Conteúdo

Sabrina ShuSupport & Marketing Specialist

Guia de DMCA e Direitos Autorais da Fish Audio — como enviar uma solicitação de remoção DMCA para a Fish Audio

15 de abr. de 2026INFO

Como Enviar uma Solicitação de DMCA para a Fish Audio

Sabrina ShuSupport & Marketing Specialist

Destaque do Criador Nick - 11 de Abril de 2026

9 de abr. de 2026CASOS DE USO

Destaque do Criador: Nick — Transformando o Gameplay em Algo Marcante

Fish Audio CommunityFish Audio Community Team

Fish Audio Disponibiliza S2 em Código Aberto: Controle de Grão Fino Encontra Streaming de Produção

Controle In-line de Grão Fino via Linguagem Natural

Uma Receita Unificada: Curadoria de Dados e Recompensas de RL dos Mesmos Modelos

Por Dentro do Modelo: Arquitetura Dual-AR

Alinhamento de Aprendizagem por Reforço para Fala

Resultados de Benchmark

Streaming de Produção via SGLang

Por Que Este Lançamento é Importante

Crie vozes que parecem reais

Last Updates

Como Usar um Modificador de Voz de IA — Guia Completo para Criadores de Conteúdo

Como Enviar uma Solicitação de DMCA para a Fish Audio

Destaque do Criador: Nick — Transformando o Gameplay em Algo Marcante

Recommended

Realizamos Testes Cego de Nosso TTS Contra Todos os Principais Concorrentes. Aqui Estão os Resultados.

Ferramenta de Transcrição de Podcast — Como Transcrever seu Podcast com o Fish Audio

O Melhor TTS com IA para Equipes Criativas! O Plano Team da Fish Audio Explicado

Fish Audio S2! Controle de Voz por IA de Grão Fino ao Nível da Palavra

Como Usar o SAM Audio para Separação de Áudio Passo a Passo

Lançamento do Fish Audio S1: Um Modelo Base de Áudio Text-to-Speech de Fronteira