Apresentando o Fish-Speech: Um TTS Multilíngue de Próxima Geração

14 de out. de 2025

Apresentando o Fish-Speech: Um TTS Multilíngue de Próxima Geração

Destaques

Apresentamos o Fish-Speech, um TTS multilíngue autorregressivo baseado em transformer de última geração (SoTA)
Utilizamos uma nova arquitetura dual-AR para uma prosódia estável e natural
Vocoder Firefly-GAN com utilização de codebook de quase 100% para uma fala expressiva
Treinado em 720 mil horas de dados e construído para agentes de IA em tempo real

Technical Paper: https://arxiv.org/abs/2411.01156

Fish-Speech é um novo sistema de conversão de texto em fala multilíngue que traz o raciocínio de LLM diretamente para o pipeline de fala. Em vez de depender de regras frágeis de grafema para fonema, ele usa modelos de linguagem para entender o texto nativamente, tornando-o muito melhor em expressões polifônicas, conteúdo em idiomas mistos e entradas ricas em contexto.

Arquitetura Dual-AR

O sistema utiliza um Slow Transformer para estrutura linguística de alto nível e um Fast Transformer para detalhes acústicos. Este processo em duas etapas estabiliza a geração, melhora o uso do codebook e elimina a latência de difusão. Com KV-cache e outras otimizações, o Fish-Speech pode responder com cerca de 150ms de latência no primeiro pacote, tornando-o ideal para agentes interativos.

Vocoder Firefly-GAN

Na camada de áudio, o vocoder Firefly-GAN combina convoluções depthwise/dilatadas com quantização vetorial escalar agrupada. Este design alcança uma utilização de codebook quase total e lida com a síntese emocional e multilíngue de forma eficiente, mantendo a qualidade do áudio extremamente alta.

Treinado em Escala

O Fish-Speech foi treinado em 720.000 horas de áudio multilíngue abrangendo as principais famílias de idiomas. O conjunto de dados equilibrado ajuda o modelo a manter uma qualidade consistente entre idiomas, sotaques e cenários de idiomas mistos.

Qualidade de Clonagem de Voz

O sistema alcança um desempenho de liderança em taxa de erro de palavras (WER), similaridade de locutor e MOS — superando referências fortes e até mesmo ultrapassando as transcrições de referência em WER. Ele preserva o timbre, a prosódia e a identidade com alta fidelidade.