Présentation de Fish-Speech : un TTS multilingue de nouvelle génération

14 oct. 2025

Présentation de Fish-Speech : un TTS multilingue de nouvelle génération

Points clés

Nous présentons Fish-Speech, un TTS multilingue autorégressif de pointe (SoTA) basé sur transformer
Nous utilisons une nouvelle architecture dual-AR pour une prosodie stable et naturelle
Vocodeur Firefly-GAN avec une utilisation du codebook proche de 100 % pour une parole expressive
Entraîné sur 720 000 heures de données et conçu pour les agents IA en temps réel

Papier technique : https://arxiv.org/abs/2411.01156

Fish-Speech est un nouveau système de synthèse vocale (TTS) multilingue qui intègre le raisonnement des LLM directement dans le pipeline de parole. Au lieu de dépendre de règles graphème-phonème fragiles, il utilise des modèles de langage pour comprendre le texte nativement, ce qui le rend bien meilleur pour les expressions polyphoniques, le contenu en plusieurs langues et les entrées riches en contexte.

Architecture Dual-AR

Le système utilise un Slow Transformer pour la structure linguistique de haut niveau et un Fast Transformer pour les détails acoustiques. Ce processus en deux étapes stabilise la génération, améliore l'utilisation du codebook et élimine la latence de diffusion. Grâce au KV-cache et à d'autres optimisations, Fish-Speech peut répondre avec une latence de premier paquet d'environ 150 ms, ce qui le rend idéal pour les agents interactifs.

Vocodeur Firefly-GAN

Au niveau de la couche audio, le vocodeur Firefly-GAN combine des convolutions depthwise/dilatées avec une quantification vectorielle scalaire groupée. Cette conception permet d'atteindre une utilisation presque totale du codebook et de gérer efficacement la synthèse émotionnelle et multilingue tout en maintenant une qualité audio extrêmement élevée.

Entraîné à grande échelle

Fish-Speech a été entraîné sur 720 000 heures d'audio multilingue couvrant les principales familles de langues. Le jeu de données équilibré aide le modèle à maintenir une qualité constante à travers les langues, les accents et les scénarios de langues mixtes.

Qualité du clonage de voix

Le système atteint des performances de pointe en termes de taux d'erreur de mots (WER), de similitude du locuteur et de MOS, surpassant des bases de référence solides et dépassant même les transcriptions de référence en termes de WER. Il préserve le timbre, la prosodie et l'identité avec une haute fidélité.

Essayez-le

Fish-Speech est en open-source sur :

GitHub : https://github.com/fishaudio/fish-speech
Démo : https://fish.audio

Créez des voix qui semblent réelles

Commencez à générer un son de la plus haute qualité dès aujourd'hui.

Inscrivez-vous gratuitement

Vous avez déjà un compte ? Se connecter

Partager cet article

Lengyue

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

Lire plus de Lengyue >