Comment utiliser les balises en ligne dans Fish Audio S2
10 mars 2026
Fish Audio S2 prend en charge les balises en ligne — de courts indices en langage naturel placés entre crochets n'importe où dans votre texte — pour contrôler la manière dont la parole est délivrée. Ce guide présente les balises prises en charge, comment les utiliser et des conseils pour obtenir les meilleurs résultats.
Syntaxe de base
Placez une balise entre crochets immédiatement avant le mot ou la phrase qu'elle doit affecter :
The door was open. [whispering] I didn't want to go inside.
Les balises peuvent être placées à n'importe quel endroit du texte, et vous pouvez utiliser plusieurs balises dans une seule génération.
Balises recommandées
S2 accepte les balises en langage naturel de forme libre — vous n'êtes pas limité à une liste fixe. Cela dit, les balises ci-dessous sont bien testées et produisent des résultats systématiquement probants. Utilisez-les comme points de départ ou rédigez vos propres descriptions (par ex. [speaking slowly, almost hesitant]) pour un contrôle plus spécifique.
Respiration et réactions vocales
| Balise | Description |
|---|---|
[clears throat] | Bruit de raclement de gorge avant de parler |
[inhalation] / [inhale] | Inspiration audible |
[exhale] | Expiration audible |
[sigh] | Soupir expressif |
[panting] | Respiration lourde et rapide |
[breathing] | Respiration audible générale |
[gasp] | Inspiration brusque et soudaine |
Sons vocaux
| Balise | Description |
|---|---|
[groan] | Son grave d'inconfort ou d'exaspération |
[moaning] | Son vocal prolongé de douleur ou de mécontentement |
[sobbing] | Pleurs avec des respirations convulsives |
[crying] | Larmes audibles dans la voix |
[laughing] | Rire franc |
[chuckling] | Rire doux et discret |
[giggle] | Petit rire léger |
Rythme
| Balise | Description |
|---|---|
[pause] | Bref silence |
[short pause] | Temps d'arrêt plus court |
[long pause] | Silence prolongé pour un effet dramatique |
Style de voix
| Balise | Description |
|---|---|
[whispering] / [whispering voice] | Débit chuchoté et soufflé |
[soft voice] | Calme et doux |
[low voice] | Registre plus grave et plus bas |
[loud voice] | Volume élevé |
[shouting] | Cris à plein volume |
Émotion
| Balise | Description |
|---|---|
[excited] | Énergie élevée, enthousiaste |
[angry] | Ton dur et percutant |
[sad] | Débit lourd et abattu |
Autre
| Balise | Description |
|---|---|
[emphasis] | Accentuation sur le mot ou la phrase qui suit |
[rustling sound] | Bruit de froissement en arrière-plan |
Positionnement
Les balises affectent ce qui vient après elles. Placez la balise juste avant l'endroit où vous voulez que le changement se produise.
Correct — balise au point de transition :
I thought everything was fine. [whispering] Then I heard the noise.
Moins efficace — balise placée trop tôt :
[whispering] I thought everything was fine. Then I heard the noise.
Dans ce cas, l'intégralité du passage sera chuchotée, y compris la première phrase.
Combiner des balises
Vous pouvez enchaîner plusieurs balises dans un passage pour créer des changements de ton :
[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.
Les balises de réaction vocale peuvent être placées entre les phrases pour des transitions au son naturel :
That was the third time this week. [sigh] I really need to fix that.
Dialogue multi-locuteurs
S2 prend en charge la génération multi-locuteurs et multi-tours avec un contrôle par balises en ligne pour chaque locuteur. Le mode multi-locuteurs arrive bientôt sur le Playground Fish Audio et l'API — restez à l'écoute.
Conseils
Commencez simplement. Un seul [whispering] ou [sigh] bien placé peut transformer un passage. Vous n'avez pas besoin d'une balise sur chaque phrase.
Utilisez les pauses pour le rythme. [pause] et [long pause] comptent parmi les balises les plus utiles pour rendre la parole naturelle, surtout avant des changements émotionnels.
Laissez les réactions porter l'émotion. Au lieu de vous fier uniquement aux balises d'émotion, essayez de les combiner avec des réactions : [sigh] [sad] I just don't know anymore. Le soupir ancre physiquement l'émotion.
Testez et itérez. Différentes voix peuvent répondre aux balises avec une intensité variable. Si une balise semble trop subtile, essayez de la renforcer avec le contexte dans le texte environnant.
Liens
- Démo → fish.audio
- GitHub → github.com/fishaudio/fish-speech
- HuggingFace → huggingface.co/fishaudio/s2-pro


