Apresentando o Fish-Speech: Um TTS Multilíngue de Próxima Geração
14 de out. de 2025

Destaques
- Apresentamos o Fish-Speech, um TTS multilíngue autorregressivo baseado em transformer de última geração (SoTA)
- Utilizamos uma nova arquitetura dual-AR para uma prosódia estável e natural
- Vocoder Firefly-GAN com utilização de codebook de quase 100% para uma fala expressiva
- Treinado em 720 mil horas de dados e construído para agentes de IA em tempo real
Technical Paper: https://arxiv.org/abs/2411.01156
Fish-Speech é um novo sistema de conversão de texto em fala multilíngue que traz o raciocínio de LLM diretamente para o pipeline de fala. Em vez de depender de regras frágeis de grafema para fonema, ele usa modelos de linguagem para entender o texto nativamente, tornando-o muito melhor em expressões polifônicas, conteúdo em idiomas mistos e entradas ricas em contexto.
Arquitetura Dual-AR
O sistema utiliza um Slow Transformer para estrutura linguística de alto nível e um Fast Transformer para detalhes acústicos. Este processo em duas etapas estabiliza a geração, melhora o uso do codebook e elimina a latência de difusão. Com KV-cache e outras otimizações, o Fish-Speech pode responder com cerca de 150ms de latência no primeiro pacote, tornando-o ideal para agentes interativos.
Vocoder Firefly-GAN
Na camada de áudio, o vocoder Firefly-GAN combina convoluções depthwise/dilatadas com quantização vetorial escalar agrupada. Este design alcança uma utilização de codebook quase total e lida com a síntese emocional e multilíngue de forma eficiente, mantendo a qualidade do áudio extremamente alta.
Treinado em Escala
O Fish-Speech foi treinado em 720.000 horas de áudio multilíngue abrangendo as principais famílias de idiomas. O conjunto de dados equilibrado ajuda o modelo a manter uma qualidade consistente entre idiomas, sotaques e cenários de idiomas mistos.
Qualidade de Clonagem de Voz
O sistema alcança um desempenho de liderança em taxa de erro de palavras (WER), similaridade de locutor e MOS — superando referências fortes e até mesmo ultrapassando as transcrições de referência em WER. Ele preserva o timbre, a prosódia e a identidade com alta fidelidade.
Experimente
Fish-Speech é de código aberto em:
- GitHub: https://github.com/fishaudio/fish-speech
- Demo: https://fish.audio
