1,000 万ユーザー向けのリアルタイム音声エージェント TTS。
Dubbing AI が Fish Audio 上で Voice Agent を構築した方法。リアルタイムエージェントに必要な自然さ、感情表現、音声クローン品質、低遅延、多言語対応の 5 つをすべて満たした TTS です。
Dubbing AI が Fish Audio 上で Voice Agent を構築した方法。リアルタイムエージェントに必要な自然さ、感情表現、音声クローン品質、低遅延、多言語対応の 5 つをすべて満たした TTS です。
ゲーム、配信、エンターテインメント全体で、音声エージェントがユーザーの言語でリアルタイムに本物らしく感じられる必要がある規模です。
Tiange Ling
Dubbing AI CEO
"Fish Audio は卓越した音声の自然さ、豊かな感情表現、そして信頼できる低遅延 TTS を提供し、当社の中核である Voice Agent の製品体験を的確に支えています。"
Fish Audio CEO
Rissa Cao

"音声エージェントは、音声 AI のあらゆるトレードオフが露わになるユースケースです。速いだけで平坦でも、表現力があって遅くてもいけません。エージェントはユーザーの言語で、リアルタイムに、本物のように聞こえる必要があります。Dubbing AI が作っているのは、その中でも最も難しい形です。ユーザーが話せない、または話したくないときに、ユーザーの代わりに話す声です。基準はアイデンティティレベルのリアリズムであり、その基準を越えるために私たちは S2 Pro を作りました。"

Dubbing AI は、デスクトップとモバイルにまたがって音声作成、音声クローン、リアルタイム変声をワンストップで提供するローカルエンドの AI 音声技術プロダクトです。世界で 1,000 万人以上のユーザーに利用され、主に 3 つのユーザー層に対応しています。コンテンツクリエイターと配信者、個人のエンタメユーザー、広告代理店やメディア企業を含む商用ユーザー。
Dubbing AI は、ゲームプレイヤー、配信者、ブランドクリエイターが活動するプラットフォーム上で、リアルタイムに声を形作り、変え、クローンするための音声レイヤーです。
Dubbing AI の新機能 Voice Agent は、プラットフォームの音声ツールキットを変声から発話へ広げます。ユーザー自身の声を変えるのではなく、Voice Agent がユーザーの代わりに話します。
ユースケースはすぐに理解でき、人間的です。ゲーム中に口論になり、これ以上エスカレートさせたくないとき、Voice Agent が代わりに話せます。電話で予約するのが疲れているとき、Voice Agent が予約を行います。内気なとき、仕事で手が離せないとき、一時的にコミュニケーションできないときも、Voice Agent はリアルタイムのやり取りを可能にします。
これは、変声、アクセント改善、リアルタイム翻訳、そして Voice Agent まで、Dubbing AI のあらゆる機能に通じる製品ミッションの延長です。人々がよりスムーズにコミュニケーションし、より効果的に自分を表現できるようにすること。Voice Agent は、自分で話すことができない、または理想的ではない状況へ、そのミッションを広げます。
Voice Agent が機能するには、AI の声が本物のように感じられる必要があります。ゲームの相手、レストランの担当者、電話の向こう側の相手は、明らかな合成音声ではなく、実在の人と話しているように感じるべきです。そこで Fish Audio が必要になりました。

音声エージェントは、音声 AI でもっとも難しいトレードオフを可視化します。音声エージェント向けのリアルタイム TTS は、レイテンシー、自然さ、感情表現のバランスを取る必要がありますが、多くのプロバイダーは選択を迫ります。低レイテンシーモデルは平坦で機械的に聞こえがちで、表現力のあるモデルは会話の流れを壊す処理遅延を生みがちです。
Dubbing AI Voice Agent では、この 2 つが同じくらい重要です。ユーザー入力から音声応答までに目立つ間があると、相手が実在の人と話しているという感覚が壊れます。即座に返答してもロボットのように聞こえれば、同じ感覚が別の方向から壊れます。決め手はどちらか一方ではなく、その組み合わせです。
Dubbing AI は Fish Audio に決める前に、複数の TTS 音声ワークフローを評価しました。評価基準は、音声エージェント向け TTS の構造的な要求に直結していました。自然さ、感情の深さ、音声クローン品質、低レイテンシー、多言語対応 — 多くのプロバイダーはこのうち 2 つか 3 つを満たしますが、5 つすべてを満たすことはまれです。
ゲーム、エンタメ、商用ユースケースにまたがる 1,000 万ユーザー向け Voice Agent では、自然さに優れていても多言語対応に失敗するモデルは不合格でした。レイテンシーに優れていても感情を平坦にするモデルも不合格でした。Voice Agent のユースケースは、5 つすべてを求める評価を必要としました。

Fish Audio は、Dubbing AI が他で見つけられなかった組み合わせで際立ちました。リアルタイム音声エージェントが求める水準で 5 つの能力をすべて備えていたのです。他社の単一基準で優れたモデルは、Voice Agent には適合せず除外されました。Fish はすべての評価軸で採用に値した唯一のモデルでした。
Dubbing AI は Voice Agent 機能内のリアルタイム TTS 生成に、クラウド API 経由で Fish Audio を導入しています。ユーザーが Voice Agent に話させたいテキストを書くと、Fish はそれを自然で感情表現豊かな音声へリアルタイムに変換し、Dubbing AI のグローバルユーザーが必要とする言語とアクセントに対応します。
Voice Agent はデスクトップとモバイルの両方でクロスプラットフォームに動作し、Dubbing AI の他の機能と同じ範囲をカバーします。Voice Agent はまずプラットフォームのゲーマー層に向けてベータ公開を準備しています — Voice Agent が作られたユースケースへの需要がもっとも強いユーザー層です。ベータに向けた社内テスト結果は非常に良好です。
利用製品:Fish Audio S2 Pro · Text-to-Speech(クラウド API)
Dubbing AI の広範なプラットフォーム上で、ゲーム、配信、商用クリエイターを含む 1,000 万人以上のユーザー。
Fish Audio は 5 つ中 5 つの評価基準を満たしました:自然さ、感情の深さ、クローン品質、低レイテンシー、多言語。
Voice Agent ベータはまずゲーマー層向けに公開予定で、社内テスト結果は良好です。
デスクトップとモバイルへのクロスプラットフォーム展開により、Dubbing AI 全体の提供範囲と一致。
自然さ、感情表現、低遅延、多言語対応を同時に満たす、ボイスエージェント向けリアルタイムTTSについてご相談ください。