Fish Audio S1 リリース：最先端のテキスト読み上げ（TTS）オーディオ基盤モデル

Zhizhuo Zhou, ML Researcher

Fish Audio S1 リリース：最先端のテキスト読み上げ（TTS）オーディオ基盤モデル

要点

最先端のテキスト読み上げ（TTS）オーディオ基盤モデルである Fish Audio S1 をリリースしました。
Fish Audio S1 は、オンライン RLHF（GRPO）を使用し、200万時間以上のオーディオデータでトレーニングされています。
Fish Audio S1 は、Seed TTS Eval で 0.8% の WER と 0.4% の CER を達成しました。
S1 は、オープンドメインの感情、トーン、特殊効果マーカーをサポートしています。

今すぐ S1 を試す

Fish Audio でモデルを無料でお試しください：https://fish.audio/app/text-to-speech/

Hugging Face モデルページ：https://huggingface.co/fishaudio/openaudio-s1-mini

Fish Audio S1

S1 には 2 つのバリアントがあります：

S1 (4B) – フル機能のフラッグシップモデル。Fish Audio Playground で利用可能
S1-mini (0.5B) – リソース制限のある環境向けの蒸留版。Hugging Face で利用可能

どちらのモデルも、独自の報酬モデルを使用したオンライン RLHF (GRPO) でトレーニングされています。

最先端の音声品質

OpenAudio S1 は、大規模なテキストとオーディオのペアに豊富な教師データを組み合わせ、200万時間以上のオーディオでトレーニングされています。意味情報と音響情報を単一のモデルで共同モデリングすることで、S1 は「意味のみ」のパイプラインに典型的な情報損失を回避し、アーティファクトや誤字率を低減しています。

Seed TTS Eval（GPT-4o ベースの文字起こしと pyannote ベースの話者指標を使用）において、S1 は以下を達成しました：

WER: 0.008
CER: 0.004

S1-mini も僅差で続いています：

WER: 0.011
CER: 0.005

OpenAudio S1 はまた、HuggingFace TTS-Arena-V2 でトップの ELO スコアに到達し、自然さ、明瞭さ、類似性の人間による主観評価で第 1 位にランクされました。

声優レベルのコントロール

Fish Audio S1 は、感情や話し方のきめ細やかなコントロールを可能にします。私たちは独自の音声文字起こし（Speech-to-Text）モデル（近日公開予定）をトレーニングし、感情、トーン、話者タグ、イベントなどのキャプションをオーディオに付与しました。その後、10万時間以上のオーディオにアノテーションを施し、指示追従（Instruction-following）の学習に使用しました。

(angry)、(sad)、(in a hurry)、(chuckling) などの感情マーカーを使用して S1 をガイドできます。推奨される感情タグの全リストはこちらでご確認いただけます：https://docs.fish.audio/developer-guide/core-features/emotions

グローバルな多言語対応

OpenAudio S1 はグローバルな展開を視野に設計されています。英語、中国語、日本語、ドイツ語、フランス語、スペイン語、韓国語、アラビア語、ロシア語、オランダ語、イタリア語、ポーランド語、ポルトガル語など、幅広い言語をサポートしています。

同じプロンプト内で複数の言語を混ぜることができ、モデルはスクリプトや文脈に合わせて自然に適応します。

アーキテクチャ、速度、コスト

内部的には、OpenAudio S1 は：

マルチモーダルなバックボーンとして Qwen3 アーキテクチャを使用
Descript Audio Codec に近い設計の独自のオーディオコーデックを採用（スクラッチからトレーニング）
人間の好みに合わせて最適化するために GRPO を用いたオンライン RLHF を使用

torch compile と最適化された推論により、S1 は NVIDIA RTX 4090 で約 1:7 のリアルタイムファクターで動作し、インタラクティブなアプリケーションにも実用的です。

価格面では、S1 は非常に手頃な価格に設計されています：

100万バイトあたり約 15 ドル（オーディオ 1 時間あたり約 0.8 ドル）

これにより、高品質な TTS が大規模なワークロードや予算に制約のある環境でも利用可能になります。

短いサンプルからのゼロショットおよびフューショット音声クローン
多言語およびクロスリンガル TTS
音素に依存しないため、テキストから任意の文字を直接処理可能

OpenAudio S1 を使い始める

今すぐ OpenAudio S1 をお試しいただけます：

Fish Audio Playground (S1): https://fish.audio
Hugging Face の S1-mini: https://huggingface.co/fishaudio/openaudio-s1-mini

Zhizhuo Zhou

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.

Zhizhuo Zhouの他の記事を読む