Customers - Fish Audio

1,000 万ユーザー向けのリアルタイム音声エージェント TTS。

Dubbing AI が Fish Audio 上で Voice Agent を構築した方法。リアルタイムエージェントに必要な自然さ、感情表現、音声クローン品質、低遅延、多言語対応の 5 つをすべて満たした TTS です。

業界: コンシューマー · ゲーム · エンターテインメント
地域: グローバル
ユースケース: 音声エージェント（リアルタイム TTS）
対象ユーザー: 1,000 万人以上のユーザー
導入形態: Cloud API · デスクトップ & モバイル
ステータス: Voice Agent ベータ版

10M+

ゲーム、配信、エンターテインメント全体で、音声エージェントがユーザーの言語でリアルタイムに本物らしく感じられる必要がある規模です。

Tiange Ling

Dubbing AI CEO

"Fish Audio は卓越した音声の自然さ、豊かな感情表現、そして信頼できる低遅延 TTS を提供し、当社の中核である Voice Agent の製品体験を的確に支えています。"

Fish Audio CEO

Rissa Cao

"音声エージェントは、音声 AI のあらゆるトレードオフが露わになるユースケースです。速いだけで平坦でも、表現力があって遅くてもいけません。エージェントはユーザーの言語で、リアルタイムに、本物のように聞こえる必要があります。Dubbing AI が作っているのは、その中でも最も難しい形です。ユーザーが話せない、または話したくないときに、ユーザーの代わりに話す声です。基準はアイデンティティレベルのリアリズムであり、その基準を越えるために私たちは S2 Pro を作りました。"

Dubbing AI について — 音声作成、クローン、変声で 1,000 万ユーザーに対応。

Dubbing AI は、デスクトップとモバイルにまたがって音声作成、音声クローン、リアルタイム変声をワンストップで提供するローカルエンドの AI 音声技術プロダクトです。世界で 1,000 万人以上のユーザーに利用され、主に 3 つのユーザー層に対応しています。コンテンツクリエイターと配信者、個人のエンタメユーザー、広告代理店やメディア企業を含む商用ユーザー。

Dubbing AI は、ゲームプレイヤー、配信者、ブランドクリエイターが活動するプラットフォーム上で、リアルタイムに声を形作り、変え、クローンするための音声レイヤーです。

Voice Agent の紹介 — あなたの代わりに話すエージェント。

Dubbing AI の新機能 Voice Agent は、プラットフォームの音声ツールキットを変声から発話へ広げます。ユーザー自身の声を変えるのではなく、Voice Agent がユーザーの代わりに話します。

ユースケースはすぐに理解でき、人間的です。ゲーム中に口論になり、これ以上エスカレートさせたくないとき、Voice Agent が代わりに話せます。電話で予約するのが疲れているとき、Voice Agent が予約を行います。内気なとき、仕事で手が離せないとき、一時的にコミュニケーションできないときも、Voice Agent はリアルタイムのやり取りを可能にします。

これは、変声、アクセント改善、リアルタイム翻訳、そして Voice Agent まで、Dubbing AI のあらゆる機能に通じる製品ミッションの延長です。人々がよりスムーズにコミュニケーションし、より効果的に自分を表現できるようにすること。Voice Agent は、自分で話すことができない、または理想的ではない状況へ、そのミッションを広げます。

Voice Agent が機能するには、AI の声が本物のように感じられる必要があります。ゲームの相手、レストランの担当者、電話の向こう側の相手は、明らかな合成音声ではなく、実在の人と話しているように感じるべきです。そこで Fish Audio が必要になりました。

音声エージェント向けリアルタイム TTS の課題：レイテンシーと自然さ。

音声エージェントは、音声 AI でもっとも難しいトレードオフを可視化します。音声エージェント向けのリアルタイム TTS は、レイテンシー、自然さ、感情表現のバランスを取る必要がありますが、多くのプロバイダーは選択を迫ります。低レイテンシーモデルは平坦で機械的に聞こえがちで、表現力のあるモデルは会話の流れを壊す処理遅延を生みがちです。

Dubbing AI Voice Agent では、この 2 つが同じくらい重要です。ユーザー入力から音声応答までに目立つ間があると、相手が実在の人と話しているという感覚が壊れます。即座に返答してもロボットのように聞こえれば、同じ感覚が別の方向から壊れます。決め手はどちらか一方ではなく、その組み合わせです。

Dubbing AI が音声エージェント基盤のために TTS 市場を評価した理由。

Dubbing AI は Fish Audio に決める前に、複数の TTS 音声ワークフローを評価しました。評価基準は、音声エージェント向け TTS の構造的な要求に直結していました。自然さ、感情の深さ、音声クローン品質、低レイテンシー、多言語対応 — 多くのプロバイダーはこのうち 2 つか 3 つを満たしますが、5 つすべてを満たすことはまれです。

ゲーム、エンタメ、商用ユースケースにまたがる 1,000 万ユーザー向け Voice Agent では、自然さに優れていても多言語対応に失敗するモデルは不合格でした。レイテンシーに優れていても感情を平坦にするモデルも不合格でした。Voice Agent のユースケースは、5 つすべてを求める評価を必要としました。

Fish Audio が Voice Agent 評価で選ばれた理由 — 5 つの基準すべて。

Fish Audio は、Dubbing AI が他で見つけられなかった組み合わせで際立ちました。リアルタイム音声エージェントが求める水準で 5 つの能力をすべて備えていたのです。他社の単一基準で優れたモデルは、Voice Agent には適合せず除外されました。Fish はすべての評価軸で採用に値した唯一のモデルでした。

· 自然さ: 合成音声の読み上げではなく、実際の人が話しているように聞こえる音声出力。
· 感情の深さ: 発話全体に感情のレジスターが残ること。多くの低レイテンシーモデルが平坦にしてしまう層です。
· 音声クローン品質: コンテンツをまたいで本人性を保つクローン音声。Dubbing AI のクリエイターとエンタメユーザーにとって重要です。
· 低レイテンシー: 目立つ処理遅延のないリアルタイム応答。会話型エージェントに不可欠な前提条件です。
· 多言語対応: グローバルユーザー向け Voice Agent に必要な、80 以上の言語と自然なコードスイッチング。

Dubbing AI が Fish Audio をリアルタイム音声エージェント TTS に使う方法。

Dubbing AI は Voice Agent 機能内のリアルタイム TTS 生成に、クラウド API 経由で Fish Audio を導入しています。ユーザーが Voice Agent に話させたいテキストを書くと、Fish はそれを自然で感情表現豊かな音声へリアルタイムに変換し、Dubbing AI のグローバルユーザーが必要とする言語とアクセントに対応します。

Voice Agent はデスクトップとモバイルの両方でクロスプラットフォームに動作し、Dubbing AI の他の機能と同じ範囲をカバーします。Voice Agent はまずプラットフォームのゲーマー層に向けてベータ公開を準備しています — Voice Agent が作られたユースケースへの需要がもっとも強いユーザー層です。ベータに向けた社内テスト結果は非常に良好です。

統合による成果。

利用製品：Fish Audio S2 Pro · Text-to-Speech（クラウド API）

Dubbing AI の広範なプラットフォーム上で、ゲーム、配信、商用クリエイターを含む 1,000 万人以上のユーザー。

Fish Audio は 5 つ中 5 つの評価基準を満たしました：自然さ、感情の深さ、クローン品質、低レイテンシー、多言語。

Voice Agent ベータはまずゲーマー層向けに公開予定で、社内テスト結果は良好です。

デスクトップとモバイルへのクロスプラットフォーム展開により、Dubbing AI 全体の提供範囲と一致。

Dubbing AIとFish Audioの次の展開。

Voice Agentがベータ版からDubbing AIの1,000万人のユーザーに向けた一般提供へ進む中、Fish Audioはその体験を支えるリアルタイムTTSレイヤーであり続けます。今後のVoice Agentの拡張（より多くの言語、より多くの利用シーン、より多くのクロスプラットフォーム文脈）は、Fishの継続的なモデル改善とともに提供されます。

ボイスエージェントを構築していますか？

自然さ、感情表現、低遅延、多言語対応を同時に満たす、ボイスエージェント向けリアルタイムTTSについてご相談ください。

営業に相談 Fish for Enterpriseを見る

導入事例