Fish Audio が S2 をオープンソース化:きめ細かな制御とプロダクション・ストリーミングの両立

S2 Pro は Fish Audio App で利用可能であり、そのオープンソース版はプロジェクトの GitHub リポジトリ および HuggingFace から入手できます。
Fish Audio は、[laugh]、[whispers]、[super happy] といった自然言語タグを使用して、韻律や感情のきめ細かなインライン制御をサポートするテキスト読み上げモデル S2 をオープンソース化しました。約50言語にわたる1,000万時間以上のオーディオでトレーニングされたこのシステムは、強化学習アライメントと Dual-Autoregressive(デュアル自己回帰)アーキテクチャを組み合わせています。今回のリリースには、モデルの重み、ファインチューニング用コード、および SGLang ベースのストリーミング推論エンジンが含まれています。
自然言語によるきめ細かなインライン制御
S2 は、テキスト内の特定の単語やフレーズの位置に自然言語の指示を直接埋め込むことで、音声生成の インライン制御 を可能にします。事前定義された固定のタグセットに依存するのではなく、S2 は [whisper in small voice](小さな声でささやく)、[professional broadcast tone](プロの放送トーン)、[pitch up](ピッチを上げる)といった自由形式のテキスト記述を受け付け、単語レベルでのオープンエンドな表現制御を実現します。
オーディオ・チューリング・テストにおいて、S2 は指示の書き換えありで 0.515 の事後平均を達成しました。これは Seed-TTS の 0.417 や MiniMax-Speech の 0.387 と比較しても高い数値です。EmergentTTS-Eval では、gpt-4o-mini-tts のベースラインに対して 81.88% という全体勝率を記録しました。これは、Google や OpenAI のクローズドソースシステムを含む、評価されたすべてのモデルの中で最高スコアです。
きめ細かな制御のための自由形式の自然言語インラインタグを使用した、マルチスピーカー対話の Fish Audio S2 入力形式の例。
統一されたレシピ:同一モデルによるデータキュレーションと強化学習報酬
S2 の核心的なアーキテクチャ上の決定は、トレーニングデータのフィルタリングとアノテーションに使用されたものと同じモデルを、強化学習(RL)時の報酬モデルとして直接再利用している点です。
- 音声品質モデルは、データフィルタリング中に SNR(信号対雑音比)、話者の一貫性、明瞭度などの次元でオーディオをスコアリングし、RL 中には音響的嗜好の報酬として機能します。
- リッチ・トランスクリプション ASR モデル(Qwen3-Omni-30B-A3B から継続事前学習)は、データキュレーション中にインラインの副言語アノテーションを含むキャプション付き文字起こしを生成し、RL 中には生成されたオーディオを再度文字起こしして元のプロンプトと比較することで、明瞭度と指示追従の報酬を提供します。
この二重目的の設計により、事前学習データと事後学習目的の間の分布のミスマッチを構造的に排除しています。これは、データパイプラインとは別に報酬モデルをトレーニングする他の TTS システムでは解決されていない課題です。
モデル内部:Dual-AR アーキテクチャ
S2 は、デコーダーのみの Transformer と RVQ ベースのオーディオコーデック(10個のコードブック、約21 Hz のフレームレート)を組み合わせて構築されています。すべてのコードブックを時間軸に沿ってフラット化すると、シーケンス長が10倍に膨れ上がってしまいます。S2 はこれを Dual-Autoregressive(Dual-AR)アーキテクチャで解決しています。
- Slow AR は時間軸に沿って動作し、主要な意味コードブックを予測します。
- Fast AR は各タイムステップで残りの9つの残差コードブックを生成し、きめ細かな音響ディテールを再構成します。
この非対称な設計(時間軸に40億パラメータ、深さ軸に4億パラメータ)により、オーディオの忠実度を維持しながら推論の効率性を保っています。
音声のための強化学習アライメント
事後学習において、S2 は Group Relative Policy Optimization (GRPO) を採用しています。これは、長いオーディオコンテキストにおいて PPO スタイルの価値モデルによるメモリオーバーヘッドを避けるために選択されました。報酬信号は、以下を含む複数の次元を組み合わせています:
- 意味的正確性と指示への忠実度
- 音響的嗜好スコアリング
- 音色の類似性
ベンチマーク結果
S2 は、複数のパブリックベンチマークで主要な結果を達成しています:
| ベンチマーク | Fish Audio S2 |
|---|---|
| Seed-TTS Eval — WER (中国語) | 0.54% (全体最高) |
| Seed-TTS Eval — WER (英語) | 0.99% (全体最高) |
| オーディオ・チューリング・テスト (指示あり) | 0.515 事後平均 |
| EmergentTTS-Eval — 勝率 | 81.88% (全体最高) |
| Fish Instruction Benchmark — TAR | 93.3% |
| Fish Instruction Benchmark — 品質 | 4.51 / 5.0 |
| 多言語 (MiniMax テストセット) — 最良 WER | 24言語中11言語 |
| 多言語 (MiniMax テストセット) — 最良 SIM | 24言語中17言語 |
Seed-TTS Eval において、S2 は Qwen3-TTS (0.77/1.24)、MiniMax Speech-02 (0.99/1.90)、Seed-TTS (1.12/2.25) といったクローズドソースシステムを含むすべての評価モデルの中で最低の WER を達成しました。オーディオ・チューリング・テストでは、0.515 というスコアで Seed-TTS (0.417) を 24%、MiniMax-Speech (0.387) を 33% 上回りました。EmergentTTS-Eval では、S2 は特に副言語表現(勝率 91.61%)、質問(84.41%)、構文の複雑さ(83.39%)において非常に強力な結果を示しました。
感情制御、レイテンシ、多言語サポートにわたるさまざまなソリューションの評価をより詳しく知りたい場合は、こちらの独立した AI 音声・オーディオツール比較を参照してください。
SGLang によるプロダクションレベルのストリーミング
S2 の Dual-AR アーキテクチャは構造的に標準的な自己回帰型 LLM と同型であるため、継続的バッチ処理、Paged KV Cache、CUDA グラフリプレイ、RadixAttention ベースのプレフィックスキャッシュなど、SGLang の LLM ネイティブなサービング最適化を最小限の修正で直接継承できます。
音声クローニングでは、S2 はシステムプロンプトに参照オーディオトークンを配置します。SGLang の RadixAttention はこれらの KV ステートを自動的にキャッシュし、同じ音声がリクエスト間で再利用される場合に平均 86.4%(ピーク時は 90% 以上)のプレフィックスキャッシュヒット率を達成します。これにより、参照オーディオのプリフィルによるオーバーヘッドがほぼ無視できるようになります。
単一の NVIDIA H200 GPU において:
- リアルタイムファクター (RTF): 0.195
- 最初の音声までの時間 (Time-to-first-audio): 約 100 ms
- スループット: RTF を 0.5 以下に維持しながら、3,000 以上の音響トークン/秒
クラウドの H100/H200 GPU で S2 を実行するためのステップバイステップのウォークスルーについては、Spheron のオープンソース TTS デプロイガイドをご覧ください。
このリリースの重要性
S2 は単なるモデルのチェックポイントとしてではなく、モデルの重み、ファインチューニングコード、そしてプロダクション対応の推論スタックを備えた完全なシステムとしてリリースされます。
2つの設計上の選択が際立っています。第一に、統合されたデータおよび報酬パイプラインにより、他の TTS システムがアーキテクチャレベルで対処していなかった「事前学習と強化学習の間の分布のミスマッチ」という構造的な問題を解消しました。第二に、Dual-AR アーキテクチャと標準的な LLM との間の構造的同型性により、S2 はカスタム推論インフラを必要とせず、LLM サービング最適化のエコシステム全体を活用できる点です。
S2 はプロジェクトの GitHub リポジトリ、SGLang-Omni、HuggingFace、および fish.audio のインタラクティブデモから利用可能です。


