2026年3月10日指南

如何在 Fish Audio S2 中使用行内标签

Fish Audio S2 支持行内标签——放在方括号中的简短自然语言指令，可插入文本的任何位置，用于控制语音的表达方式。本指南将介绍支持的标签、使用方法以及获得最佳效果的技巧。

基本语法

将标签放在紧邻受影响词语或短语之前的方括号中：

The door was open. [whispering] I didn't want to go inside.

标签可以放置在文本的任何位置，您可以在单次生成中使用多个标签。

推荐标签

S2 接受自由形式的自然语言标签——您不局限于固定列表。尽管如此，下面的标签经过充分测试，效果始终稳健。您可以将它们作为起点，或者编写自己的描述（例如 [speaking slowly, almost hesitant]）进行更精确的控制。

呼吸与发声反应

标签	描述
`[clears throat]`	说话前的清嗓子声
`[inhalation]` / `[inhale]`	明显的吸气声
`[exhale]`	明显的呼气声
`[sigh]`	富有表现力的叹息
`[panting]`	沉重、急促的呼吸
`[breathing]`	一般的呼吸声
`[gasp]`	突然的抽气/吸气声

人声效果

标签	描述
`[groan]`	不适或恼火的低沉呻吟
`[moaning]`	痛苦或不满的持续发声
`[sobbing]`	抽泣
`[crying]`	声音中带有哭腔
`[laughing]`	大笑
`[chuckling]`	轻声笑
`[giggle]`	咯咯笑

语速/停顿

标签	描述
`[pause]`	短暂停顿
`[short pause]`	较短的停顿
`[long pause]`	为了戏剧效果的长停顿

声音风格

标签	描述
`[whispering]` / `[whispering voice]`	低语、带有气声的表达
`[soft voice]`	轻柔而温和
`[low voice]`	较低沉的音域
`[loud voice]`	提高音量
`[shouting]`	大声喊叫

情感

标签	描述
`[excited]`	高能量、欢快
`[angry]`	严厉、强有力的语气
`[sad]`	沉重、沮丧的表达

其他

标签	描述
`[emphasis]`	强调后续词语或短语
`[rustling sound]`	背景摩擦/沙沙声

放置位置

标签会影响其后面的内容。请将标签放在您希望发生转变的位置。

推荐方式 — 标签置于转折点：

I thought everything was fine. [whispering] Then I heard the noise.

效果欠佳 — 标签过早：

[whispering] I thought everything was fine. Then I heard the noise.

在这种情况下，整段文字都会以低语方式呈现，包括第一句。

组合标签

您可以在一段文字中串联多个标签，以产生语气的转变：

[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.

发声反应标签可以放置在句子之间，使过渡更自然：

That was the third time this week. [sigh] I really need to fix that.

多角色对话

S2 支持多角色、多轮对话生成，并可为每位说话人进行行内标签控制。多角色功能即将上线 Fish Audio 体验区和 API —— 敬请期待。

建议

从简单开始。 一个恰到好处的 [whispering] 或 [sigh] 就能改变整个段落。您不需要在每句话都加标签。

利用停顿控制节奏。 [pause] 和 [long pause] 是使语音感觉自然的最有用标签之一，特别是在情感转变之前。

让反应承载情感。 不要只依赖情感标签，尝试结合发声反应：[sigh] [sad] I just don't know anymore. 叹息声能让情感更有实感。

测试并迭代。 不同的声音对标签的反应强度可能不同。如果某个标签感觉太微弱，尝试通过周围文本的语境来加强它。

链接

Demo → fish.audio
GitHub → github.com/fishaudio/fish-speech
HuggingFace → huggingface.co/fishaudio/s2-pro

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

阅读Kyle Cui的更多内容