9 mars 2026Recherche

Fish Audio lance S2 en open-source : le contrôle précis rencontre le streaming de production

S2 Pro est disponible sur l'application Fish Audio et son code source est accessible via le dépôt GitHub du projet et sur HuggingFace.

Fish Audio a rendu S2 open-source, un modèle de synthèse vocale (text-to-speech) qui prend en charge un contrôle précis de la prosodie et des émotions grâce à des balises en langage naturel telles que [laugh], [whispers] et [super happy]. Entraîné sur plus de 10 millions d'heures d'audio dans environ 50 langues, le système combine l'alignement par apprentissage par renforcement avec une architecture double-autorégressive. Cette version comprend les poids du modèle, le code de réglage fin (fine-tuning) et un moteur d'inférence de streaming basé sur SGLang.

Contrôle précis en ligne via le langage naturel

S2 permet un contrôle en ligne de la génération de la parole en intégrant des instructions en langage naturel directement à des positions spécifiques de mots ou de phrases dans le texte. Plutôt que de s'appuyer sur un ensemble fixe de balises prédéfinies, S2 accepte des descriptions textuelles libres — telles que [whisper in small voice], [professional broadcast tone] ou [pitch up] — permettant un contrôle de l'expression illimité au niveau du mot.

Lors du test de Turing audio, S2 atteint une moyenne a posteriori de 0,515 avec réécriture d'instructions, contre 0,417 pour Seed-TTS et 0,387 pour MiniMax-Speech. Sur EmergentTTS-Eval, il atteint un taux de victoire global de 81,88 % par rapport à une base de référence gpt-4o-mini-tts — le plus élevé parmi tous les modèles évalués, y compris les systèmes propriétaires de Google et OpenAI.

Exemple de format d'entrée S2 Exemple de format d'entrée S2 montrant un dialogue multi-locuteurs avec des balises de langue naturelle en ligne en format libre pour un contrôle précis.

Une recette unifiée : conservation des données et récompenses RL issus des mêmes modèles

Une décision architecturale centrale de S2 est que les modèles utilisés pour filtrer et annoter les données d'entraînement sont directement réutilisés comme modèles de récompense lors de l'apprentissage par renforcement (RL) :

Le modèle de qualité de la parole évalue l'audio selon des dimensions telles que le RSB (SNR), la cohérence du locuteur et l'intelligibilité pendant le filtrage des données — puis sert de récompense de préférence acoustique pendant le RL.
Le modèle ASR de transcription riche (pré-entraîné à partir de Qwen3-Omni-30B-A3B) génère des transcriptions augmentées de légendes avec des annotations paralinguistiques en ligne pendant la conservation des données — puis fournit la récompense d'intelligibilité et de suivi des instructions en re-transcrivant l'audio généré et en le comparant à l'invite (prompt) originale.

Cette conception à double usage élimine par construction le décalage de distribution entre les données de pré-entraînement et les objectifs de post-entraînement — un problème qui reste non résolu dans d'autres systèmes TTS qui entraînent des modèles de récompense séparément de leurs pipelines de données.

À l'intérieur du modèle : Architecture Double-AR

S2 s'appuie sur un transformer de type décodeur uniquement combiné à un codec audio basé sur RVQ (10 livres de codes, taux de trame de ~21 Hz). L'aplatissement de tous les livres de codes au fil du temps provoquerait une explosion de la longueur de séquence par 10. S2 résout ce problème avec une architecture Double-Autorégressive (Dual-AR) :

Slow AR opère le long de l'axe temporel et prédit le livre de codes sémantique principal.
Fast AR génère les 9 livres de codes résiduels restants à chaque étape temporelle, reconstruisant les détails acoustiques précis.

Cette conception asymétrique — 4 milliards de paramètres le long de l'axe temporel, 400 millions de paramètres le long de l'axe de profondeur — maintient l'efficacité de l'inférence tout en préservant la fidélité audio.

Alignement par apprentissage par renforcement pour la parole

Pour le post-entraînement, S2 utilise l'optimisation de politique relative de groupe (GRPO), choisie pour éviter la surcharge de mémoire des modèles de valeur de style PPO dans les contextes audio longs. Le signal de récompense combine plusieurs dimensions, notamment :

Précision sémantique et respect des instructions
Score de préférence acoustique
Similitude de timbre

Résultats des benchmarks

S2 obtient des résultats de premier plan sur plusieurs benchmarks publics :

Benchmark	Fish Audio S2
Seed-TTS Eval — WER (Chinois)	0,54 % (meilleur score global)
Seed-TTS Eval — WER (Anglais)	0,99 % (meilleur score global)
Test de Turing Audio (avec instruction)	0,515 (moyenne a posteriori)
EmergentTTS-Eval — Taux de victoire	81,88 % (plus élevé au total)
Fish Instruction Benchmark — TAR	93,3 %
Fish Instruction Benchmark — Qualité	4,51 / 5,0
Multilingue (MiniMax Testset) — Meilleur WER	11 sur 24 langues
Multilingue (MiniMax Testset) — Meilleure SIM	17 sur 24 langues

Sur Seed-TTS Eval, S2 obtient le taux d'erreur de mot (WER) le plus bas parmi tous les modèles évalués, y compris les systèmes propriétaires : Qwen3-TTS (0,77/1,24), MiniMax Speech-02 (0,99/1,90), Seed-TTS (1,12/2,25). Sur le test de Turing audio, le score de 0,515 dépasse Seed-TTS (0,417) de 24 % et MiniMax-Speech (0,387) de 33 %. Sur EmergentTTS-Eval, S2 obtient des résultats particulièrement solides en paralinguistique (91,61 % de taux de victoire), pour les questions (84,41 %) et la complexité syntaxique (83,39 %).

Pour un aperçu plus large de la manière dont les différentes solutions sont évaluées en matière de contrôle des émotions, de latence et de support multilingue, vous pouvez consulter cette comparaison indépendante des outils audio et vocaux IA.

Streaming de production via SGLang

Parce que l'architecture Double-AR de S2 est structurellement isomorphe aux LLM autorégressifs standard, elle peut hériter directement de toutes les optimisations de service natives des LLM de SGLang avec un minimum de modifications — y compris le batching continu, le cache KV paginé, le replay de graphe CUDA et le cache de préfixe basé sur RadixAttention.

Pour le clonage de voix, S2 place les jetons audio de référence dans l'invite système. La fonction RadixAttention de SGLang met automatiquement en cache ces états KV, atteignant un taux de réussite de cache de préfixe moyen de 86,4 % (plus de 90 % en pointe) lorsque la même voix est réutilisée entre les requêtes — rendant la surcharge de pré-remplissage de l'audio de référence presque négligeable.

Sur un seul GPU NVIDIA H200 :

Facteur temps réel (RTF) : 0,195
Délai avant le premier son (Time-to-first-audio) : environ 100 ms
Débit : plus de 3 000 jetons acoustiques/s tout en maintenant un RTF inférieur à 0,5

Pour un guide étape par étape sur l'exécution de S2 sur des GPU H100/H200 dans le cloud, consultez le guide de déploiement TTS open-source de Spheron.

Pourquoi cette sortie est importante

S2 n'est pas publié uniquement comme un point de contrôle (checkpoint) de modèle, mais comme un système complet : poids du modèle, code de réglage fin et une pile d'inférence prête pour la production.

Deux choix de conception se distinguent. Premièrement, le pipeline unifié de données et de récompenses élimine un problème structurel — le décalage de distribution entre le pré-entraînement et le RL — que d'autres systèmes TTS n'ont pas abordé au niveau architectural. Deuxièmement, l'isomorphisme structurel entre l'architecture Double-AR et les LLM standard signifie que S2 peut exploiter tout l'écosystème d'optimisations de service des LLM, plutôt que de nécessiter une infrastructure d'inférence personnalisée.

S2 est disponible via le dépôt GitHub du projet, SGLang-Omni, HuggingFace, et en démo interactive sur fish.audio.

Questions Fréquemment Posées

Comment fonctionne la génération de dialogues multi-locuteurs ?

S2 prend en charge nativement la génération multi-locuteurs et multi-tours. En intégrant des balises de locuteurs et des instructions en langage naturel directement dans l'entrée, S2 tisse plusieurs voix ensemble tout en maintenant un timbre cohérent, en respectant la prosodie et en honorant les indices émotionnels par locuteur — ce qui le rend idéal pour générer des conversations complètes, et pas seulement une narration à voix unique.

Est-ce disponible via API ?

Oui. S2 est disponible via l'API Fish Audio sur fish.audio. Les poids complets du modèle, le code de réglage fin et le moteur d'inférence basé sur SGLang sont également en open-source sur GitHub (github.com/fishaudio/fish-speech) et HuggingFace (huggingface.co/fishaudio/s2-pro) pour l'auto-hébergement.

Quelles balises audio sont prises en charge ?

S2 accepte des balises en langage naturel de format libre plutôt qu'un ensemble prédéfini fixe — vous n'êtes donc pas limité à un vocabulaire fermé. Des balises comme [laugh], [whispers], [super happy], [professional broadcast tone] ou [pitch up] peuvent être insérées à n'importe quelle position de mot ou de phrase. Parce que le système est entraîné sur des descriptions ouvertes, les nouvelles balises se généralisent bien au-delà des exemples vus lors de l'entraînement.

Quelles langues sont prises en charge ?

S2 est entraîné sur plus de 10 millions d'heures d'audio couvrant environ 80 langues. Sur l'ensemble de test multilingue MiniMax — couvrant 24 langues — S2 obtient le meilleur WER dans 11 langues et la meilleure similitude de locuteur dans 17 langues, surpassant à la fois MiniMax et ElevenLabs sur la majorité du benchmark : allemand, anglais, arabe, cantonais, chinois, coréen, espagnol, finnois, français, grec, hindi, indonésien, italien, japonais, polonais, portugais, roumain, russe, tchèque, thaïlandais, turc, ukrainien, vietnamien et néerlandais.

Shijia Liao

Founder & Chief-Scientist of Fish Audio.

Lire plus de Shijia Liao

Créez des voix qui semblent réelles

Commencez à générer un son de la plus haute qualité dès aujourd'hui.

Inscrivez-vous gratuitement

Vous avez déjà un compte ? Se connecter

Last Updates

27 juil. 2026Entreprise

5 modèles, 22 personnes, 1 an

Rissa CaoCEO

How We Made S2.1 Pro Free — Rebuilding the inference stack from scratch

23 juil. 2026Recherche

Comment nous avons rendu notre API Text-to-Speech gratuite : L'ingénierie d'inférence derrière S2.1 Pro

Shijia LiaoChief Scientist

20 juil. 2026Pleins feux sur les créateurs

Alex Lee: Using AI Voice to Build More Human Characters

Fish Audio CommunityFish Audio Community Team

Fish Audio lance S2 en open-source : le contrôle précis rencontre le streaming de production

Contrôle précis en ligne via le langage naturel

Une recette unifiée : conservation des données et récompenses RL issus des mêmes modèles

À l'intérieur du modèle : Architecture Double-AR

Alignement par apprentissage par renforcement pour la parole

Résultats des benchmarks

Streaming de production via SGLang

Pourquoi cette sortie est importante

Questions Fréquemment Posées

Créez des voix qui semblent réelles

Last Updates

5 modèles, 22 personnes, 1 an

Comment nous avons rendu notre API Text-to-Speech gratuite : L'ingénierie d'inférence derrière S2.1 Pro

Alex Lee: Using AI Voice to Build More Human Characters

Recommended

5 modèles, 22 personnes, 1 an

Comment nous avons rendu notre API Text-to-Speech gratuite : L'ingénierie d'inférence derrière S2.1 Pro

Fish Audio S2.1 Pro : API de synthèse vocale gratuite pour les développeurs

Clonage de Voix Professionnel : Un Clone de Qualité Studio et Vérifié de Votre Voix

AI Voice Design : Créez une voix personnalisée à partir d'une simple description textuelle

Nous avons testé notre TTS à l'aveugle contre tous les concurrents majeurs. Voici les résultats.