Offre à durée limitée- 50% DE RÉDUCTION ANNUELLEÉchanger
12 mars 2026Guide

Fish Audio S2 ! Contrôle vocal par IA précis au niveau du mot

Fish Audio S2 ! Contrôle vocal par IA précis au niveau du mot

Fish Audio S2 apporte des balises en ligne en domaine ouvert, un contrôle vocal par IA au niveau du mot et la prise en charge de 80 langues pour un TTS expressif. Découvrez comment cela fonctionne avec des exemples concrets.

Mars 2026 | Fish Audio S2 est maintenant disponible


Table des matières

  1. Qu'est-ce que Fish Audio S2 ?

  2. Ce que S2 peut faire — En 30 secondes

  3. Balises en ligne dans Fish Audio S2

  4. Exemples réels

  5. Performances de S2 — Résultats des benchmarks

  6. 80 langues

  7. Open Source

  8. Comment commencer

  9. FAQ


La plupart des outils vocaux d'IA vous donnent une voix et vous permettent d'ajuster l'ambiance au niveau global — plus calme, plus énergique, un peu plus chaleureux. Fish Audio S2 adopte une approche différente pour le TTS expressif. Vous dirigez la voix au niveau du mot, en langage courant, directement dans votre script. Si vous connaissez les balises d'émotion de Fish Audio dans la S1, la S2 étend considérablement cette idée avec un contrôle en ligne en domaine ouvert.

Voici à quoi cela ressemble en pratique :

I thought I was ready. [voice breaking] I wasn't.
[soft voice] Take your time. There's no rush.
That was the third time this week. [sigh] I really need to fix that.

Pas de panneaux de réglages. Pas de SSML. Pas de post-production. Vous écrivez la direction dans le texte, et S2 l'interprète.


Résumé rapide

Fish Audio S2 introduit des balises en ligne pour un contrôle du TTS expressif au niveau du mot.

  • Balises en domaine ouvert écrites en langage naturel — pas de vocabulaire fixe

  • Placement en milieu de phrase pour des changements précis de timing et de débit

  • Prise en charge d'environ 80 langues

  • Poids du modèle, code de fine-tuning et pile d'inférence en open-source

Au lieu d'ajuster les paramètres globaux de la voix, S2 vous permet de diriger l'interprétation directement à l'intérieur de votre script.


Qu'est-ce que Fish Audio S2 ?

https://www.youtube.com/watch?v=NIcXTOSdOXc

Fish Audio S2 est le modèle TTS de deuxième génération de Fish Audio. Il est entraîné sur plus de 10 millions d'heures d'audio dans environ 80 langues, et il introduit le contrôle par balises en ligne : des instructions en langage naturel intégrées directement dans votre script à n'importe quelle position, vous offrant une direction précise sur la manière dont la parole est délivrée au niveau du mot ou de la phrase.

Le modèle est disponible en open-source sur GitHub et HuggingFace, et est accessible via l'API et l'application Fish Audio.


Ce que S2 peut faire — En 30 secondes

Les balises en ligne de S2 sont des instructions entre crochets placées n'importe où dans votre texte :

[whispering] Don't let them hear you.
She set the folder down. [long pause] Then she looked up.
[laughing] I have absolutely no idea what just happened.

Les balises affectent ce qui vient après elles. Placez la balise au point exact où le changement doit se produire — pas seulement au début de la phrase, sauf si c'est là que vous le souhaitez.

Vous ne choisissez pas dans un menu fixe. Vous écrivez la description, et S2 l'interprète :

[the calm, measured tone of someone who has done this a thousand times]
Please place your hands where I can see them.
[overly cheerful, clearly forcing it]
Everything is completely fine. Totally fine.

Si vous pouvez le décrire à un doubleur, S2 peut essayer de le faire.


Balises en ligne dans Fish Audio S2

Les balises en ligne sont le mécanisme de contrôle central de Fish Audio S2. Ce sont des instructions en langage naturel entre [crochets] que vous insérez directement dans votre script pour diriger la façon dont la parole est délivrée — à n'importe quel mot, à n'importe quel moment.

Syntaxe

Placez une balise entre [crochets] immédiatement avant le mot ou la phrase qu'elle doit affecter. Les balises peuvent être placées n'importe où — au début, au milieu ou à la fin d'une phrase.

[whispering] I didn't want to go inside.
I didn't want to go [whispering] inside.

Les deux fonctionnent. Le premier murmure toute la ligne. Le second murmure à partir de "inside". L'emplacement détermine le sens.

Écrivez les balises dans votre langue

Les balises n'ont pas besoin d'être en anglais. S2 comprend les instructions en langage naturel dans 80 langues — vous pouvez donc écrire des balises dans la même langue que votre script.

日本語 (Japonais)

[囁き声で] 誰にも聞かせないで。
[ため息をついて] もう一度やり直そう。

中文 (Chinois)

[低声说] 不要让他们听见。
[叹气] 我真的不知道该怎么办了。

español (Espagnol)

[susurrando] No dejes que te escuchen.
[enojado] ¿Cómo pudiste hacer eso?

한국어 (Coréen)

[속삭이며] 아무도 모르게 해줘.
[화나서] 어떻게 그럴 수가 있어.

La même logique s'applique : placez la balise immédiatement avant le mot ou la phrase qu'elle doit affecter, dans la langue qui vous semble la plus naturelle pour votre script.

Balises bien testées

S2 accepte n'importe quelle description en langage naturel, mais ces balises produisent systématiquement de bons résultats dès le départ. Les balises s'appliquent à partir de leur apparition jusqu'à la balise suivante ou la fin de la phrase.

Respiration et réactions

Sons vocaux

Rythme

Style de voix

Émotion

Autre

Descriptions libres

Au-delà de la liste de balises ci-dessus, S2 accepte des descriptions ouvertes. Écrivez ce que vous diriez à un doubleur :

[speaking slowly, almost hesitant]
[professional broadcast tone]
[dead tired, end of a very long shift]
[pitch up]
[voice rough from crying, trying to sound normal]

Parce que S2 est entraîné sur des descriptions ouvertes, les nouvelles balises se généralisent bien — vous n'êtes pas limité aux exemples vus pendant l'entraînement.

Combinaison de balises

Enchaînez les balises sur un passage pour créer des changements de ton :

[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.

Utilisez des balises de réaction entre les phrases pour des transitions naturelles :

That was the third time this week. [sigh] I really need to fix that.

Combiner une réaction avec une balise d'émotion ancre physiquement le sentiment :

[sigh] [sad] I just don't know anymore.

Exemples réels

Narration de livre audio

[NARRATOR, low and slow] Chapter Nine. The Last Morning. The apartment felt different that day — smaller, somehow.

SARAH: [voice rough from crying, trying to sound normal] I made coffee. Do you want some?

DANIEL: [long pause, then quietly] Yeah. Thanks.

Podcast

Today we're looking at something I've spent three months trying to understand.

[chuckling] I kept getting it wrong. My producer will confirm this.

Dialogue de jeu vidéo

VILLAIN: [calm, almost bored, as if this conversation is beneath them] You came all this way.

VILLAIN: [sudden fury, voice tight] Where is it?

VILLAIN: [composure returning, dangerously quiet] Did you really think that would work?

HERO: [exhausted, but steady] Every time.

Agent vocal

[friendly, warm] Hi — thanks for calling. How can I help you today?

[empathetic, unhurried] I'm sorry to hear that. Let me pull this up.

[confident] Good news — I can see exactly what happened, and I'm going to get this sorted for you right now.

Conseils pour obtenir les meilleurs résultats

Les balises en ligne de S2 sont expressives, mais leur impact dépend de la façon dont vous les utilisez — et de la voix avec laquelle vous travaillez. Ces conseils sont basés sur des tests pratiques.

Associez des balises physiques à une balise d'émotion. Des balises comme [panting], [whispering] et [shouting] seront prises en compte seules, mais l'effet peut paraître plat sans contexte émotionnel. Les combiner avec une balise d'émotion produit des résultats plus cohérents et naturels :

[panting] [tired] I've been running for twenty minutes.
[whispering] [scared] Don't move. Don't make a sound.
[shouting] [angry] I told you this would happen!

Faites toujours suivre une balise descriptive par du texte. Une balise descriptive comme [voice rough from crying, trying to sound normal] a besoin d'une ligne à prononcer — ne la laissez pas seule. La balise dirige l'interprétation de ce qui suit ; sans texte après elle, le résultat peut être imprévisible.

✅  [voice rough from crying, trying to sound normal] I made coffee. Do you want some?
❌  [voice rough from crying, trying to sound normal]

Testez votre voix avant d'écrire le script. Différentes voix réagissent à la même balise avec une intensité différente. Une voix au registre naturellement calme montrera des changements plus subtils qu'une voix expressive. Si une balise ne produit pas l'effet escompté, essayez une autre voix avant d'ajuster la balise elle-même — le problème vient souvent de la voix, pas de l'instruction.

Commencez simplement, puis superposez. Un seul [sigh] ou [long pause] bien placé peut transformer une réplique. N'ajoutez plus de balises que si la version simple ne suffit pas. Trop de balisage finit par se contredire.

Bientôt disponible : choisissez votre version préférée parmi plusieurs générations. S2 permettra bientôt de générer plusieurs versions d'une même ligne à la fois, afin que vous puissiez comparer et choisir l'interprétation qui convient le mieux — tout comme les outils de génération d'images vous permettent de choisir dans un lot. Cela facilitera considérablement l'obtention de la performance idéale sans avoir à ajuster manuellement les balises à chaque fois.


Performances de S2 — Résultats des benchmarks

Le contrôle en ligne de S2 n'est pas seulement une fonctionnalité d'interface utilisateur — il est également corrélé à de solides performances sur les benchmarks publics de parole. Ces tests mesurent le naturel de la parole, la précision de la prononciation et la capacité à suivre les instructions sur les systèmes TTS modernes.

Sur l'Audio Turing Test, S2 obtient un score de 0,515 — surpassant Seed-TTS de 24 % et MiniMax-Speech de 33 %. Sur EmergentTTS-Eval, il obtient des résultats particulièrement solides en paralinguistique (taux de victoire de 91,61 %), ce qui reflète directement la qualité d'exécution des balises en ligne.

Sur Seed-TTS Eval, S2 atteint le taux d'erreur de mots (WER) le plus bas parmi tous les modèles évalués, y compris les systèmes propriétaires : Qwen3-TTS (0,77 % / 1,24 %), MiniMax Speech-02 (0,99 % / 1,90 %) et Seed-TTS (1,12 % / 2,25 %).

Source : Article de lancement de Fish Audio S2 par Shijia Liao, Scientifique en chef


80 langues

S2 est entraîné sur plus de 10 millions d'heures d'audio couvrant environ 80 langues. Sur l'ensemble de test multilingue MiniMax couvrant 24 langues, S2 obtient le meilleur taux d'erreur de mots dans 11 langues et la meilleure similarité de locuteur dans 17 — surpassant à la fois MiniMax et ElevenLabs sur la majeure partie du benchmark.

Les langues avec des performances confirmées incluent : l'arabe, le cantonais, le chinois, le tchèque, le néerlandais, l'anglais, le finnois, le français, l'allemand, le grec, l'hindi, l'indonésien, l'italien, le japonais, le coréen, le polonais, le portugais, le roumain, le russe, l'espagnol, le thaïlandais, le turc, l'ukrainien, le vietnamien.


Open Source

Contrairement à la plupart des systèmes TTS commerciaux, Fish Audio S2 est entièrement open-source — poids du modèle, code de fine-tuning et moteur d'inférence prêt pour la production basé sur SGLang — permettant aux développeurs de l'héberger eux-mêmes, de l'affiner et de le déployer à grande échelle.

Performances en production sur un seul GPU H200 :

  • Real-Time Factor (Facteur temps réel) : 0,195

  • Temps avant le premier audio (TTFA) : ~100ms

  • Débit : 3 000+ tokens acoustiques/s

Pour le clonage de voix à grande échelle, S2 place les tokens audio de référence dans le prompt système. Le cache KV de SGLang atteint un taux de réussite moyen du cache de préfixe de 86,4 % lorsque la même voix est réutilisée d'une requête à l'autre — rendant le coût du clonage de voix répété presque négligeable.


Comment commencer

  1. Essayez-le dans l'application playgroundfish.audio prend en charge directement les balises en ligne de S2. Placez des [crochets] n'importe où dans votre script et générez.

  2. Intégrez-le via l'API — Disponible via l'API de Fish Audio. Consultez la référence de l'API pour les points de terminaison et l'authentification.

  3. Auto-hébergez le modèle — Les poids et la pile d'inférence sont en open-source sur GitHub et HuggingFace.

  • Bientôt disponible : Génération de dialogues multi-locuteurs dans l'application et l'API Fish Audio.

  • Pour un guide complet sur la syntaxe des balises en ligne, les règles de placement et les conseils : → Comment utiliser les balises en ligne de Fish Audio S2

  • Vous venez de S1 et souhaitez comprendre le lien entre les deux systèmes : → Balises d'émotion Fish Audio S1 — Le guide complet


FAQ

Que sont les balises en ligne dans le TTS ?

Les balises en ligne sont de courtes instructions intégrées directement dans un script de synthèse vocale pour contrôler la façon dont un mot ou une phrase spécifique est prononcé — l'interprétation, l'émotion, le rythme ou la qualité vocale à ce point précis. Contrairement aux paramètres globaux qui s'appliquent à toute une génération, les balises en ligne permettent de diriger des moments individuels dans une réplique. Fish Audio S2 utilise des [crochets] pour les balises en ligne et accepte des descriptions libres en langage naturel.

Qu'est-ce que Fish Audio S2 ?

Fish Audio S2 est le modèle TTS de deuxième génération de Fish Audio. Il permet un contrôle en ligne précis via des balises en langage naturel entre [crochets] placées n'importe où dans un script. Il est entraîné sur plus de 10 millions d'heures d'audio dans environ 80 langues. Il est open-source sur GitHub et HuggingFace, et disponible via l'API et l'application Fish Audio.

Comment fonctionnent les balises en ligne dans S2 ?

Placez une balise entre [crochets] immédiatement avant le mot ou la phrase qu'elle doit affecter. Vous pouvez utiliser des balises éprouvées comme [whispering], [sigh] ou [long pause], ou écrire n'importe quelle description libre en langage naturel. Les balises s'appliquent à tout ce qui suit jusqu'à la balise suivante ou la fin de la phrase.

Est-ce que Fish Audio S2 est open source ?

Oui. Les poids du modèle, le code de fine-tuning et le moteur d'inférence basé sur SGLang sont en open-source sur github.com/fishaudio/fish-speech et huggingface.co/fishaudio/s2-pro

Combien de langues S2 prend-il en charge ?

S2 est entraîné sur environ 80 langues. Sur un benchmark multilingue de 24 langues, S2 obtient le meilleur taux d'erreur de mots dans 11 langues et la meilleure similarité de locuteur dans 17, surpassant MiniMax et ElevenLabs.

S2 prend-il en charge la syntaxe des parenthèses () de S1 ?

Non. S2 utilise nativement les [crochets]. L'interface web de Fish Audio traduit automatiquement les () en [] lorsque S2 est sélectionné, mais si vous utilisez directement l'API, utilisez les crochets.

S2 permet-il les dialogues multi-locuteurs ?

La génération multi-locuteurs arrive bientôt dans l'application et l'API Fish Audio. Le modèle le prend en charge nativement — restez à l'écoute pour le déploiement.

Quelle est la différence entre Fish Audio S1 et S2 ?

S1 utilise un vocabulaire fixe de balises d'émotion prédéfinies entre (parenthèses), placées au début des phrases. S2 utilise des balises en langage naturel en domaine ouvert entre [crochets] qui peuvent apparaître n'importe où dans le script — au milieu d'une phrase, entre les mots ou au début. S2 accepte également des descriptions libres plutôt qu'une liste de mots-clés fermée, vous n'êtes donc pas limité à des émotions prédéfinies. Pour une analyse complète, consultez le guide des balises d'émotion Fish Audio S1.

Fish Audio S2 peut-il remplacer le SSML ?

Pour la plupart des cas d'utilisation expressifs, oui. Fish Audio S2 peut reproduire de nombreux contrôles de style SSML via des balises en ligne en langage naturel — au lieu d'un balisage XML comme <prosody rate="slow">, vous écrivez [speaking slowly] directement dans le script. Des balises comme [whispering], [long pause] et [angry] couvrent les fonctions expressives SSML les plus courantes sans nécessiter de connaissances spécialisées en balisage.

Les balises en ligne de Fish Audio S2 sont-elles compatibles avec d'autres systèmes TTS ?

Non. La syntaxe des balises en ligne dans Fish Audio S2 est spécifique au modèle. D'autres systèmes TTS utilisent le SSML ou leurs propres formats propriétaires. Cependant, les concepts expressifs sous-jacents — pauses, changements de ton, indices vocaux — se traduisent conceptuellement lors du passage d'un système à l'autre, même si la syntaxe diffère.


Ressources complémentaires :

Sabrina Shu

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Lire plus de Sabrina Shu

Créez des voix qui semblent réelles

Commencez à générer un son de la plus haute qualité dès aujourd'hui.

Vous avez déjà un compte ? Se connecter