Fish Audio S1 リリース:最先端のテキスト読み上げ(TTS)オーディオ基盤モデル

要点
- 最先端のテキスト読み上げ(TTS)オーディオ基盤モデルである Fish Audio S1 をリリースしました。
- Fish Audio S1 は、オンライン RLHF(GRPO)を使用し、200万時間以上のオーディオデータでトレーニングされています。
- Fish Audio S1 は、Seed TTS Eval で 0.8% の WER と 0.4% の CER を達成しました。
- S1 は、オープンドメインの感情、トーン、特殊効果マーカーをサポートしています。
今すぐ S1 を試す
Fish Audio でモデルを無料でお試しください:https://fish.audio/app/text-to-speech/
Hugging Face モデルページ:https://huggingface.co/fishaudio/openaudio-s1-mini
Fish Audio S1
S1 には 2 つのバリアントがあります:
- S1 (4B) – フル機能のフラッグシップモデル。Fish Audio Playground で利用可能
- S1-mini (0.5B) – リソース制限のある環境向けの蒸留版。Hugging Face で利用可能
どちらのモデルも、独自の報酬モデルを使用したオンライン RLHF (GRPO) でトレーニングされています。
最先端の音声品質
OpenAudio S1 は、大規模なテキストとオーディオのペアに豊富な教師データを組み合わせ、200万時間以上のオーディオでトレーニングされています。意味情報と音響情報を単一のモデルで共同モデリングすることで、S1 は「意味のみ」のパイプラインに典型的な情報損失を回避し、アーティファクトや誤字率を低減しています。
Seed TTS Eval(GPT-4o ベースの文字起こしと pyannote ベースの話者指標を使用)において、S1 は以下を達成しました:
- WER: 0.008
- CER: 0.004
S1-mini も僅差で続いています:
- WER: 0.011
- CER: 0.005
OpenAudio S1 はまた、HuggingFace TTS-Arena-V2 でトップの ELO スコアに到達し、自然さ、明瞭さ、類似性の人間による主観評価で第 1 位にランクされました。
声優レベルのコントロール
Fish Audio S1 は、感情や話し方のきめ細やかなコントロールを可能にします。私たちは独自の音声文字起こし(Speech-to-Text)モデル(近日公開予定)をトレーニングし、感情、トーン、話者タグ、イベントなどのキャプションをオーディオに付与しました。その後、10万時間以上のオーディオにアノテーションを施し、指示追従(Instruction-following)の学習に使用しました。
(angry)、(sad)、(in a hurry)、(chuckling) などの感情マーカーを使用して S1 をガイドできます。推奨される感情タグの全リストはこちらでご確認いただけます:https://docs.fish.audio/developer-guide/core-features/emotions
グローバルな多言語対応
OpenAudio S1 はグローバルな展開を視野に設計されています。英語、中国語、日本語、ドイツ語、フランス語、スペイン語、韓国語、アラビア語、ロシア語、オランダ語、イタリア語、ポーランド語、ポルトガル語など、幅広い言語をサポートしています。
同じプロンプト内で複数の言語を混ぜることができ、モデルはスクリプトや文脈に合わせて自然に適応します。
アーキテクチャ、速度、コスト
内部的には、OpenAudio S1 は:
- マルチモーダルなバックボーンとして Qwen3 アーキテクチャを使用
- Descript Audio Codec に近い設計の独自のオーディオコーデックを採用(スクラッチからトレーニング)
- 人間の好みに合わせて最適化するために GRPO を用いたオンライン RLHF を使用
torch compile と最適化された推論により、S1 は NVIDIA RTX 4090 で約 1:7 のリアルタイムファクターで動作し、インタラクティブなアプリケーションにも実用的です。
価格面では、S1 は非常に手頃な価格に設計されています:
- 100万バイトあたり約 15 ドル(オーディオ 1 時間あたり約 0.8 ドル)
これにより、高品質な TTS が大規模なワークロードや予算に制約のある環境でも利用可能になります。
- 短いサンプルからのゼロショットおよびフューショット音声クローン
- 多言語およびクロスリンガル TTS
- 音素に依存しないため、テキストから任意の文字を直接処理可能
OpenAudio S1 を使い始める
今すぐ OpenAudio S1 をお試しいただけます:
- Fish Audio Playground (S1): https://fish.audio
- Hugging Face の S1-mini: https://huggingface.co/fishaudio/openaudio-s1-mini

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.
Zhizhuo Zhouの他の記事を読む
