Présentation de Fish-Speech : un TTS multilingue de nouvelle génération
14 oct. 2025

Points clés
- Nous présentons Fish-Speech, un TTS multilingue autorégressif de pointe (SoTA) basé sur transformer
- Nous utilisons une nouvelle architecture dual-AR pour une prosodie stable et naturelle
- Vocodeur Firefly-GAN avec une utilisation du codebook proche de 100 % pour une parole expressive
- Entraîné sur 720 000 heures de données et conçu pour les agents IA en temps réel
Papier technique : https://arxiv.org/abs/2411.01156
Fish-Speech est un nouveau système de synthèse vocale (TTS) multilingue qui intègre le raisonnement des LLM directement dans le pipeline de parole. Au lieu de dépendre de règles graphème-phonème fragiles, il utilise des modèles de langage pour comprendre le texte nativement, ce qui le rend bien meilleur pour les expressions polyphoniques, le contenu en plusieurs langues et les entrées riches en contexte.
Architecture Dual-AR
Le système utilise un Slow Transformer pour la structure linguistique de haut niveau et un Fast Transformer pour les détails acoustiques. Ce processus en deux étapes stabilise la génération, améliore l'utilisation du codebook et élimine la latence de diffusion. Grâce au KV-cache et à d'autres optimisations, Fish-Speech peut répondre avec une latence de premier paquet d'environ 150 ms, ce qui le rend idéal pour les agents interactifs.
Vocodeur Firefly-GAN
Au niveau de la couche audio, le vocodeur Firefly-GAN combine des convolutions depthwise/dilatées avec une quantification vectorielle scalaire groupée. Cette conception permet d'atteindre une utilisation presque totale du codebook et de gérer efficacement la synthèse émotionnelle et multilingue tout en maintenant une qualité audio extrêmement élevée.
Entraîné à grande échelle
Fish-Speech a été entraîné sur 720 000 heures d'audio multilingue couvrant les principales familles de langues. Le jeu de données équilibré aide le modèle à maintenir une qualité constante à travers les langues, les accents et les scénarios de langues mixtes.
Qualité du clonage de voix
Le système atteint des performances de pointe en termes de taux d'erreur de mots (WER), de similitude du locuteur et de MOS, surpassant des bases de référence solides et dépassant même les transcriptions de référence en termes de WER. Il préserve le timbre, la prosodie et l'identité avec une haute fidélité.
Essayez-le
Fish-Speech est en open-source sur :
- GitHub : https://github.com/fishaudio/fish-speech
- Démo : https://fish.audio
