Fish Audio S2 でインラインタグを使用する方法
2026年3月10日
Fish Audio S2 は、テキスト内の任意の場所に配置できる、角括弧で囲まれた短い自然言語の手がかりであるインラインタグをサポートしており、音声の出力を制御できます。このガイドでは、サポートされているタグ、その使用方法、および最高の結果を得るためのヒントについて説明します。
基本構文
タグを角括弧に入れて、効果を適用したい単語やフレーズの直前に配置します:
The door was open. [whispering] I didn't want to go inside.
タグはテキスト内のどの位置にも配置でき、1回の生成で複数のタグを使用できます。
推奨タグ
S2 は自由形式の自然言語タグを受け入れます。特定のリストに限定されるわけではありません。とはいえ、以下のタグは十分にテストされており、一貫して強力な結果が得られます。これらを出発点として使用するか、より具体的な制御のために独自の説明(例: [speaking slowly, almost hesitant])を作成してください。
呼吸と発声リアクション
| タグ | 説明 |
|---|---|
[clears throat] | 話す前の咳払いの音 |
[inhalation] / [inhale] | 聞き取れる吸気 |
[exhale] | 聞き取れる呼気 |
[sigh] | 表現豊かなため息 |
[panting] | 激しく速い呼吸 |
[breathing] | 一般的な聞き取れる呼吸 |
[gasp] | 鋭く突然の息の吸い込み |
声の音
| タグ | 説明 |
|---|---|
[groan] | 不快感や苛立ちの低い音 |
[moaning] | 痛みや不満の長い発声 |
[sobbing] | けいれん的な呼吸を伴う泣き声 |
[crying] | 声に含まれる聞き取れる涙 |
[laughing] | 完全な笑い声 |
[chuckling] | 柔らかく静かな笑い |
[giggle] | 軽やかで高い笑い |
ペース配分
| タグ | 説明 |
|---|---|
[pause] | 短い沈黙 |
[short pause] | より短い間隔 |
[long pause] | ドラマチックな効果のための長い沈黙 |
声のスタイル
| タグ | 説明 |
|---|---|
[whispering] / [whispering voice] | 密やかな、ささやき声のような語り口 |
[soft voice] | 静かで穏やかな声 |
[low voice] | より深く、低音の音域 |
[loud voice] | 音量を上げた声 |
[shouting] | 全力の大声 |
感情
| タグ | 説明 |
|---|---|
[excited] | ハイエネルギー、陽気 |
[angry] | 粗く、力強いトーン |
[sad] | 重く、落ち込んだ語り口 |
その他
| タグ | 説明 |
|---|---|
[emphasis] | 後続の単語やフレーズの強調 |
[rustling sound] | 背景のカサカサという音 |
配置
タグは、その後に来るものに影響を与えます。変化を開始させたいポイントの直前にタグを配置してください。
良い例 — 切り替えポイントにタグを配置:
I thought everything was fine. [whispering] Then I heard the noise.
あまり効果的ではない例 — タグが早すぎる:
[whispering] I thought everything was fine. Then I heard the noise.
この場合、最初の文を含め、一節全体がささやき声になります。
タグの組み合わせ
一節の中で複数のタグを連鎖させて、語り口の変化を作り出すことができます:
[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.
発声リアクションタグを文の間に配置することで、自然な響きの移行が可能になります:
That was the third time this week. [sigh] I really need to fix that.
マルチスピーカー対話
S2 は、話者ごとのインラインタグ制御によるマルチスピーカー、マルチターンの生成をサポートしています。マルチスピーカー機能は近日中に Fish Audio のプレイグラウンドと API に登場予定ですので、ご期待ください。
ヒント
シンプルに始めましょう。 適切に配置された一つの [whispering] や [sigh] が一節を一変させることがあります。すべての文にタグを付ける必要はありません。
ペース配分にポーズを使用しましょう。 [pause] や [long pause] は、特に感情が変化する前に、音声を自然に感じさせるための最も有用なタグの一つです。
リアクションに感情を乗せましょう。 感情タグだけに頼るのではなく、リアクションと組み合わせてみてください: [sigh] [sad] I just don't know anymore. ため息をつくことで、感情が身体的に裏付けられます。
テストと調整を繰り返しましょう。 声によって、タグに対する反応の強さが異なる場合があります。タグの効果が弱すぎると感じる場合は、周囲のテキストの文脈で補強してみてください。
リンク
- デモ → fish.audio
- GitHub → github.com/fishaudio/fish-speech
- HuggingFace → huggingface.co/fishaudio/s2-pro


