Fish Audio S2!単語レベルでの細やかなAI音声制御
Fish Audio S2は、オープンドメインのインラインタグ、単語レベルのAI音声制御、そして80言語のサポートを表現力豊かなTTSにもたらします。実際の例でその仕組みを確認しましょう。
2026年3月 | Fish Audio S2が利用可能になりました
目次
-
Fish Audio S2とは?
-
30秒でわかるS2ができること
-
Fish Audio S2のインラインタグ
-
実践的な例
-
S2のパフォーマンス — ベンチマーク結果
-
80言語に対応
-
オープンソース
-
はじめ方
-
よくある質問 (FAQ)
ほとんどのAI音声ツールでは、音声を選択し、全体的なトーン(落ち着いた、エネルギッシュな、温かみのあるなど)を調整するだけです。Fish Audio S2は、表現力豊かなTTSに対して異なるアプローチを取ります。スクリプトの中に自然な言葉で直接指示を書き込むことで、単語レベルで音声を演出できます。Fish Audio S1の感情タグをご存知の方なら、S2がオープンドメインのインライン制御によってそのアイデアを劇的に拡張していることがわかるでしょう。
実際にどのようになるかは以下の通りです:
I thought I was ready. [voice breaking] I wasn't.
[soft voice] Take your time. There's no rush.
That was the third time this week. [sigh] I really need to fix that.
設定パネルも、SSMLも、ポストプロダクションも不要です。テキストに演出を書き込むだけで、S2がそれをレンダリングします。
クイックサマリー
Fish Audio S2は、単語レベルで表現力豊かなTTSを制御するためのインラインタグを導入します。
-
自然言語で書かれたオープンドメインタグ — 固定の語彙はありません
-
文中への配置により、正確なタイミングと話し方の変化を実現
-
約80言語をサポート
-
モデルの重み、ファインチューニング用コード、推論スタックをオープンソース化
全体的な音声設定を調整する代わりに、S2ではスクリプト内で直接話し方を演出できます。
Fish Audio S2とは?
https://www.youtube.com/watch?v=NIcXTOSdOXc
Fish Audio S2は、Fish Audioの次世代TTSモデルです。約80言語にわたる1,000万時間以上のオーディオでトレーニングされており、インラインタグ制御を導入しています。これは、スクリプトの任意の場所に埋め込まれた自然言語の指示により、単語やフレーズレベルで話し方を細かく演出できる機能です。
モデルはGitHubおよびHuggingFaceでオープンソースとして公開されており、Fish AudioのAPIおよびアプリからも利用可能です。
30秒でわかるS2ができること
S2のインラインタグは、テキスト内の任意の場所に配置できる角括弧 [] の指示です:
[whispering] Don't let them hear you.
She set the folder down. [long pause] Then she looked up.
[laughing] I have absolutely no idea what just happened.
タグは、その後に来るテキストに影響を与えます。変化させたい正確なポイントにタグを配置してください。文頭に置く必要はありません(文頭から変化させたい場合を除きます)。
固定のメニューから選ぶ必要はありません。あなたが説明を書けば、S2がそれを解釈します:
[the calm, measured tone of someone who has done this a thousand times]
Please place your hands where I can see them.
[overly cheerful, clearly forcing it]
Everything is completely fine. Totally fine.
声優に指示を出すように説明できれば、S2はそれを実行しようとします。
Fish Audio S2のインラインタグ
インラインタグは、Fish Audio S2の中心的な制御メカニズムです。これらは [角括弧] で囲まれた自然言語の指示で、スクリプトに直接埋め込むことで、どの単語でもどのタイミングでも話し方を演出できます。
構文
影響を与えたい単語やフレーズの直前に [角括弧] でタグを配置します。タグは文頭、文中、文末のどこにでも配置できます。
[whispering] I didn't want to go inside.
I didn't want to go [whispering] inside.
どちらも機能します。前者は行全体をささやき、後者は「inside」から先をささやきます。配置場所が意味を持ちます。
自分の言語でタグを書く
タグは英語である必要はありません。S2は80言語にわたる自然言語の指示を理解するため、スクリプトと同じ言語でタグを書くことができます。
日本語
[囁き声で] 誰にも聞かせないで。
[ため息をついて] もう一度やり直そう。
中文 (Chinese)
[低声说] 不要让他们听见。
[叹气] 我真的不知道该怎么办了。
español (Spanish)
[susurrando] No dejes que te escuchen.
[enojado] ¿Cómo pudiste hacer eso?
한국어 (Korean)
[속삭이며] 아무도 모르게 해줘。
[화나서] 어떻게 그럴 수가 있어。
同じロジックが適用されます。影響を与えたい単語やフレーズの直前に、スクリプトにとって自然な言語でタグを配置してください。
検証済みのタグ
S2はあらゆる自然言語の説明を受け付けますが、以下のタグは最初から一貫して高い効果を発揮します。タグは、その出現箇所から次のタグが現れるか、文が終了するまで適用されます。
呼吸とリアクション
発声
ペース
音声スタイル
感情
その他
自由な形式の説明
上記のタグリスト以外にも、S2は自由な説明を受け付けます。声優に伝えるような内容を書いてください:
[speaking slowly, almost hesitant]
[professional broadcast tone]
[dead tired, end of a very long shift]
[pitch up]
[voice rough from crying, trying to sound normal]
S2は自由な形式の説明でトレーニングされているため、新しいタグでもうまく一般化されます。トレーニング中に見たことのない例に限定されません。
タグの組み合わせ
文章全体でタグを連鎖させて、話し方の変化を作り出します:
[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.
文の間にリアクションタグを使用して、自然な移り変わりを演出します:
That was the third time this week. [sigh] I really need to fix that.
リアクションと感情タグを組み合わせることで、感情を肉体的に表現できます:
[sigh] [sad] I just don't know anymore.
実践的な例
オーディオブックの朗読
[NARRATOR, low and slow] Chapter Nine. The Last Morning. The apartment felt different that day — smaller, somehow.
SARAH: [voice rough from crying, trying to sound normal] I made coffee. Do you want some?
DANIEL: [long pause, then quietly] Yeah. Thanks.
ポッドキャスト
Today we're looking at something I've spent three months trying to understand.
[chuckling] I kept getting it wrong. My producer will confirm this.
ゲームのダイアログ
VILLAIN: [calm, almost bored, as if this conversation is beneath them] You came all this way.
VILLAIN: [sudden fury, voice tight] Where is it?
VILLAIN: [composure returning, dangerously quiet] Did you really think that would work?
HERO: [exhausted, but steady] Every time.
音声エージェント
[friendly, warm] Hi — thanks for calling. How can I help you today?
[empathetic, unhurried] I'm sorry to hear that. Let me pull this up.
[confident] Good news — I can see exactly what happened, and I'm going to get this sorted for you right now.
最高の結果を得るためのヒント
S2's inline tags are expressive, but how much they show depends on how you use them — and which voice you're working with. These tips are based on hands-on testing.
物理的なタグと感情タグを組み合わせる。 [panting]、[whispering]、[shouting] などのタグは単独でも機能しますが、感情的なコンテキストがないと平坦に感じられることがあります。感情タグと組み合わせることで、より一貫性のある自然な結果が得られます:
[panting] [tired] I've been running for twenty minutes.
[whispering] [scared] Don't move. Don't make a sound.
[shouting] [angry] I told you this would happen!
説明的なタグの後には必ずテキストを続ける。 [voice rough from crying, trying to sound normal] のような説明的なタグには、読み上げるためのセリフが必要です。タグだけで放置しないでください。タグはそれに続くテキストの出し方を指示するものであり、後にテキストがないと出力が不安定になる可能性があります。
✅ [voice rough from crying, trying to sound normal] I made coffee. Do you want some?
❌ [voice rough from crying, trying to sound normal]
スクリプトを作成する前に音声をテストする。 音声によって、同じタグに対する反応の強さが異なります。もともと落ち着いたトーンの音声は、表現力豊かな音声よりも変化が控えめになります。タグが期待通りに機能しない場合は、タグ自体を調整する前に別の音声を試してみてください。多くの場合、原因は指示ではなく音声の特性にあります。
シンプルに始めて、重ねていく。 適切に配置された一つの [sigh] や [long pause] だけで、セリフは完全に変わります。シンプルな方法で不十分な場合にのみ、タグを追加してください。タグを使いすぎると、指示同士が干渉してしまいます。
近日公開:複数の生成結果からお気に入りを選ぶ。 S2は、同じセリフの複数のバリエーションを一度に生成できるようになります。画像生成ツールでバッチから選択するように、最適なパフォーマンスを比較して選ぶことができます。これにより、手動でタグを微調整することなく、理想的な表現に追い込むことが非常に簡単になります。
S2のパフォーマンス — ベンチマーク結果
S2のインライン制御は単なるUI機能ではなく、公開されている音声ベンチマークでの高いパフォーマンスとも相関しています。これらのベンチマークは、現代のTTSシステムにおける音声の自然さ、発音の正確さ、および指示への追従能力を測定するものです。
Audio Turing Testにおいて、S2は0.515をスコアし、Seed-TTSを24%、MiniMax-Speechを33%上回りました。EmergentTTS-Evalでは、特にパラ言語(paralinguistics)において非常に強力な結果(勝率91.61%)を収めており、これはインラインタグの実行品質を直接反映しています。
Seed-TTS Evalにおいて、S2は、クローズドソースを含むすべての評価モデルの中で最も低い単語誤り率(WER)を達成しました:Qwen3-TTS(0.77% / 1.24%)、MiniMax Speech-02(0.99% / 1.90%)、Seed-TTS(1.12% / 2.25%)。
出典:Fish Audio S2 リリースポスト、Shijia Liao(チーフサイエンティスト)著
80言語に対応
S2は、約80言語にわたる1,000万時間以上のオーディオでトレーニングされています。24言語をカバーするMiniMaxマルチリンガルテストセットにおいて、S2は11言語で最高の単語誤り率を、17言語で最高のスピーカー類似度を達成し、ベンチマークの大部分においてMiniMaxとElevenLabsの両方を上回りました。
高いパフォーマンスが確認されている言語には以下が含まれます:アラビア語、広東語、中国語、チェコ語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ヒンディー語、インドネシア語、イタリア語、日本語、韓国語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スペイン語、タイ語、トルコ語、ウクライナ語、ベトナム語。
オープンソース
ほとんどの商用TTSシステムとは異なり、Fish Audio S2は完全にオープンソース化されています。モデルの重み、ファインチューニング用コード、そして本番環境対応のSGLangベースの推論エンジンが含まれており、開発者はセルフホスト、ファインチューニング、大規模な展開が可能です。
-
GitHub: github.com/fishaudio/fish-speech
-
HuggingFace: huggingface.co/fishaudio/s2-pro
-
SGLang推論: SGLang-Omni
単一のH200 GPUにおけるプロダクションパフォーマンス:
-
リアルタイム係数 (RTF): 0.195
-
初回音声生成時間 (TTFA): ~100ms
-
スループット: 3,000+ アコースティックトークン/秒
大規模なボイスクローニングのために、S2はシステムプロンプトにリファレンスオーディオトークンを配置します。SGLangのKVキャッシュにより、同じ音声がリクエスト間で再利用される場合の平均プレフィックスキャッシュヒット率は86.4%に達し、繰り返しのボイスクローニングによるオーバーヘッドはほぼ無視できるレベルになります。
はじめ方
-
アプリの
プレイグラウンドで試す — fish.audio はS2のインラインタグを直接サポートしています。スクリプト内の任意の場所に[角括弧]を配置して生成してください。 -
API経由で統合する — Fish Audio APIから利用可能です。エンドポイントと認証については、APIリファレンスを参照してください。
-
モデルをセルフホストする — 重みと推論スタックはGitHubおよびHuggingFaceでオープンソースとして公開されています。
-
近日公開: Fish AudioアプリおよびAPIでのマルチスピーカーダイアログ生成。
-
インラインタグの構文、配置ルール、ヒントの完全なガイドはこちら:→ Fish Audio S2 インラインタグの使用方法
-
S1から移行し、2つのシステムの関係を理解したい場合はこちら:→ Fish Audio S1 感情タグ — 完全ガイド
FAQ
TTSのインラインタグとは何ですか?
インラインタグは、テキスト読み上げのスクリプト内に直接埋め込まれた短い指示のことで、特定の単語やフレーズがどのように話されるか(話し方、感情、ペース、声の質など)をそのポイントで制御します。生成全体に適用されるグローバルな音声設定とは異なり、インラインタグを使用するとセリフ内の個々の瞬間を演出できます。Fish Audio S2ではインラインタグに [角括弧] を使用し、自由な形式の自然言語による記述を受け付けます。
Fish Audio S2とは何ですか?
Fish Audio S2は、Fish Audioの次世代TTSモデルです。スクリプトの任意の場所に配置された [角括弧] 内の自然言語タグによる細やかなインライン制御をサポートし、約80言語にわたる1,000万時間以上のオーディオでトレーニングされています。GitHubおよびHuggingFaceでオープンソースとして公開されており、Fish AudioのAPIおよびアプリから利用可能です。
S2でインラインタグはどのように機能しますか?
影響を与えたい単語やフレーズの直前に、[角括弧] でタグを配置します。[whispering]、[sigh]、[long pause] などの検証済みタグを使用するか、任意の自由な形式の自然言語で説明を書くことができます。タグは、次のタグが現れるか文が終了するまで、その後のすべてに適用されます。
Fish Audio S2はオープンソースですか?
はい。モデルの重み、ファインチューニング用コード、およびSGLangベースの推論エンジンが github.com/fishaudio/fish-speech および huggingface.co/fishaudio/s2-pro で公開されています。
S2はいくつ言語をサポートしていますか?
S2は約80言語でトレーニングされています。24言語のマルチリンガルベンチマークにおいて、S2は11言語で最高の単語誤り率を、17言語で最高のスピーカー類似度を達成し、MiniMaxやElevenLabsを上回っています。
S2はS1の () 丸括弧構文をサポートしていますか?
いいえ。S2はネイティブで [角括弧] を使用します。Fish AudioのウェブUIでは、S2が選択されている場合に自動的に () を [] に変換しますが、APIを直接使用する場合は角括弧を使用してください。
S2はマルチスピーカーのダイアログをサポートしていますか?
マルチスピーカー生成は近日中にFish AudioアプリおよびAPIに導入予定です。モデル自体はネイティブでサポートしています。リリースまでもうしばらくお待ちください。
Fish Audio S1とS2の違いは何ですか?
S1は、文頭に配置する (丸括弧) 内の固定された感情タグを使用します。S2は、文の途中、単語の間、または文頭など、スクリプトのどこにでも配置できる [角括弧] 内のオープンドメインの自然言語タグを使用します。また、S2は固定のキーワードリストではなく自由な形式の説明を受け付けるため、あらかじめ定義された感情に制限されません。詳細については、Fish Audio S1 感情タグガイドを参照してください。
Fish Audio S2はSSMLの代わりになりますか?
ほとんどの表現力豊かなユースケースにおいて、はい、代わりになります。Fish Audio S2は、自然言語のインラインタグを通じて多くのSSMLスタイルの制御を再現できます。<prosody rate="slow"> のようなXMLマークアップの代わりに、スクリプト内に直接 [speaking slowly] と書くことができます。[whispering]、[long pause]、[angry] などのタグは、専門的なマークアップの知識を必要とせずに、最も一般的なSSMLの表現機能をカバーします。
Fish Audio S2のインラインタグは他のTTSシステムと互換性がありますか?
いいえ。Fish Audio S2のインラインタグ構文はこのモデル固有のものです。他のTTSシステムはSSMLや独自の形式を使用しています。ただし、ポーズ、トーンの変化、発声の合図といった根本的な表現の概念は、構文が異なってもシステム間で共通して適用できるものです。
関連リソース:
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
Sabrina Shuの他の記事を読む

