エンタープライズ向け音声インフラ

HeyGen、Retell、Sierra、そして次世代の音声 AI ビルダーを支える、表現力が高く制御しやすいリアルタイム音声モデル。アバター動画、音声エージェント、キャラクターアプリ、音声コンテンツ、多言語対応、声を保った翻訳まで本番環境で利用できます。

営業に相談モデルを聴く料金を見る

S2 Pro をライブで実行中。声を選び、セリフを入力して、その場で再生できます。本番チームが使う同じモデルを、登録、営業連絡、デモ環境なしで試せます。

80+

言語

2M+

音声ライブラリ

$15/100万文字

固定 API 料金

<150ms

初回音声まで ( クラウド )

本番環境で音声を構築するチームに信頼されています

音声エージェント・会話型 AI

動画ナレーション・吹き替え・音楽

インタラクティブ・ソーシャル

教育・学習

音声チームが乗り換える6つの理由。

多くの TTS はデモでは問題なく聞こえます。Fish はその先にある本番トラフィック、難しい発音、多言語のコードスイッチング、主権要件のある導入、そしてただ耐えるのではなく拡張できる総コストのために作られています。

本番運用

Artificial Analysis 掲載 · 公開された評価手法

ベンチマーク

HeyGen、Retell、Sierra、FinalRound を支援

発音

カスタム辞書 · 数字、名前、専門用語

S2 Pro は Artificial Analysis の音声リーダーボードに掲載され、HeyGen、Retell、Sierra の本番導入を支えています。実トラフィック、難しい発音、ベンチマークでは見えにくいマルチリージョン負荷に対応します。

本番運用

Artificial Analysis 掲載 · 公開された評価手法

発音

カスタム辞書 · 数字、名前、専門用語

ベンチマーク

HeyGen、Retell、Sierra、FinalRound を支援

15,000以上の自然言語ディレクションタグ。欲しい表現を — {温かい、会話調、わずかなボストン訛り、柔らかく下がる語尾} — と伝えるだけで、Fish がレンダリングします。S2 Pro は公開スコア 0.515 の Audio Turing Test を通過しており、リスナーは人間の音声と確実には区別できません。評価手法と元音声は公開されています。

中国語、日本語、韓国語、広東語でネイティブ品質を提供し、英語、中国語、日本語、スペイン語、アラビア語を即座にコードスイッチングできます。他の音声ベンダーが来四半期の提供を約束している APAC カバレッジは、すでに本番で稼働しています。

クリエイターが学習した200万以上の音声を今すぐ利用できます。30秒の音声から自分の声をクローンすることも可能です。スロット制限も、音声ごとの料金もありません。同意確認を組み込んだ音声クローニングワークフローです。

規制対象ワークロード、ソブリン展開、本番で動くモデルを完全に制御したいチーム向けに、Fish はプレミアムなエンタープライズ階層としてセルフホスティングを提供します。自社 VPC、エアギャップ環境、データセンターで実行できます。調達で求められながら、めったに得られないアーキテクチャです。

100万文字あたり $15。フラットで予測可能、最初の API コールから10億回目まで同じ文字単価です。規模が大きくなるほど、複数の階層にまたがるボリュームディスカウントが重なり、1つのチームとまとめて交渉できます。シート料金も、本番料金への予期しないゲートもありません。

本番の成果。デモでの勝利ではありません。

見出しにするべきなのは品質そのものではなく、切り替え後にチームが達成したことです。各ストーリーは顧客自身が書いた定量的な成果です。

非アメリカ英語アクセントの音声クローニングで、代替候補に対して3対1で選定されました。

Picto VOICE 内の日本語 AI キャラクターにキャラクター単位の表現力を提供。

1,000万以上のユーザー向けに、自然さ、感情、低遅延、多言語対応を備えたリアルタイム音声エージェント TTS を提供。

エンタープライズ会話に向けて、リアルタイム編成に対応した本番音声エージェントを提供。

ライブ面接コーチングをリアルタイム低遅延で提供。

6つの音声プロダクト領域が、
今日すでに本番出荷されています。

アバター動画から多言語カスタマーサポートまで、以下の各カテゴリはロードマップ上の約束ではなく、Fish 上で稼働する実際のエンタープライズ導入です。

AI エージェント向け音声

キャラクター・コンパニオンアプリ。

アバター動画

多言語カスタマーサポート。

中国語 · 日本語 · 韓国語 · 広東語

大規模な音声クローニング。

200万音声のエコシステム · 30秒クローン

音声翻訳と吹き替え。

80以上の全言語 · コードスイッチング

すでに使っている音声エージェントスタックに接続できます。

音声チームが今日出荷に使っているオーケストレーション、電話、インフラツールをドロップインでサポート。主要言語向け SDK、WebSocket ストリーミング、REST、受信 webhook パターンを文書化しています。

リアルタイムパイプライン

WebRTC インフラ

ワークフロー自動化

音声エージェントプラットフォーム

電話 · SIP · SMS

音声エージェント編成

リアルタイムパイプライン

WebRTC インフラ

ワークフロー自動化

音声エージェントプラットフォーム

電話 · SIP · SMS

音声エージェント編成

顧客との通話で本当に重要になる基本事項。

本番導入は Enterprise ティアから始まります。より高いコミットメントではボリュームディスカウントが適用されます。トラフィック特性に合う価格は営業にご相談ください。主権要件のある導入では、premium セルフホストティアを別のセットアップとコミットメント構造で利用できます。

最大99%

稼働率 SLA
premium enterprise ティアで利用可能

<150ms

初回音声 (クラウド)
米国、EU、APAC リージョンで検証済み

Custom

同時ストリーム
High Volume で 50+ · Enterprise でカスタム

80+

言語
ネイティブ品質の音声とコードスイッチングに対応

実際の成長の仕方に合わせて構築。

1つのエンタープライズティア。文字単位のフラット料金。拡大に合わせて複数ティアで積み上がるボリュームディスカウントを、1つのチーム、1つの契約で交渉できます。

プラン内容

Enterprise プラン

条件と注記

開始価格

月額 $999 から

高いコミットメントティアでボリュームディスカウント

TTS · S2 Pro

$15 / 100万文字

UTF-8 バイトで課金 · 100万あたり英語約18万語

TTS · S1

$15 / 100万文字

S2 Pro と同じフラット料金

ASR · transcribe-l

$0.36 / 音声時間

時間は最も近い秒に切り上げ

同時実行

Custom

High Volume は 50+ · Enterprise はカスタム

音声

無制限

スロット制限なし · 音声ごとの料金なし

繰り越し

90日

未使用クレジットを90日繰り越し

SLA

最大 99%

premium enterprise ティアで利用可能

サポート

専用 Slack チャンネル

リクエストに応じて SOC2 / HIPAA コンプライアンス

Self-host premium

初期費 $10K + 月額 $10K から

12か月コミット · VPC · オンプレ · エアギャップ · 主権クラウド

複数ティアでボリュームディスカウントを利用できます。トラフィック特性に合う価格は営業にお問い合わせください。公開価格は Enterprise ティアの入口を示し、より大きなコミットメントでは顧客ごとに追加割引が可能です。

準備ができたら、いつでもどうぞ。

導入についてチームにご相談ください。準備してお話しします。

営業に相談

よくある質問

私のデータはどこに保存されますか？米国、EU、APAC のデータレジデンシーに対応していますか？

デフォルトでは、お客様のデータは米国に保持され、Google Cloud 上でホストされ、Cloudflare R2 ストレージを使用します。推論は米国とアジア太平洋（東京）の edge リージョンから実行されるため、ユーザーがどこにいても低レイテンシで利用できます。コンプライアンス要件のあるワークロードでは、enterprise 契約で Zero Data Retention を有効化できます。これは、リクエストのテキストと音声がディスクに書き込まれないことを意味します。データを特定の国や地域内に留める必要がある場合は、self-hosted enterprise ティアが完全にお客様自身のインフラ内で稼働するため、何もお客様の環境から外に出ません。

大規模デプロイやトラフィック急増に対応できますか？

はい、本格的な規模に対応できます。容量は契約に応じてスケールする同時生成数としてプロビジョニングされ、すでに 1,000 件を超える同時生成を本番環境で実行しているお客様がいます。Rust edge gateway が複数の GPU リージョンで推論を提供するため、トラフィックが急増した場合でも、当社チームが同日中に上限を引き上げられます。サポートチケットの待ち行列に並ぶことなくスケールできます。

どのようなセキュリティ認証がありますか？

セキュリティはプラットフォームのすべての層に組み込まれています。SOC 2 Type II 監査は現在進行中で、完了後は NDA のもとでお客様にレポートを提供します。Zero Data Retention は enterprise 契約で利用できるため、リクエスト payload は永続化されません。また self-hosted ティアでは、お客様のデータのすべてのバイトがお客様自身の環境内に留まります。HIPAA に沿った構成にも対応し、条件を満たすヘルスケアワークロードでは BAA の締結も可能です。独立したペネトレーションテストも継続的なコンプライアンスプログラムの一部として実施しています。

カスタムデプロイ向けのエンジニアリング支援はありますか？

もちろんです。enterprise のお客様は、チケットキューではなく、チームの働き方に合ったチャネルで当社エンジニアリングチームと直接つながれます。個別のお客様向けに統合固有の機能やプロトコル拡張を定期的に提供しており、self-hosted デプロイも初期セットアップから go-live までエンドツーエンドで一緒に立ち上げます。

SSO と RBAC に対応していますか？

はい、初日からきめ細かな制御を利用できます。ロールベースのアクセス制御により、チームレベルでは owner、admin、member ロールを、workspace レベルでは manager、contributor、viewer ロールを割り当てられるため、全員が必要なアクセスだけを持てます。Single sign-on は現在 Google と GitHub OAuth で利用できます。

自社データでモデルを微調整したり、自社の声を使ったりできますか？

どちらも可能で、お客様の条件に合わせて進められます。API または web UI から、最短 10 秒の reference audio で private voice clone を即座に作成できます。最良の結果には 30 秒以上を推奨します。作成した voice clone はチーム内で完全に非公開のままです。より深い取り組みでは、お客様自身のデータで custom model を fine-tune することもできます。

他の音声ベンダーから移行する場合はどうなりますか？

Fish Audio への移行は straightforward で、多くのチームがその速さに驚きます。既存の音声は reference audio から再作成して移行でき、Python、TypeScript、Go SDK と WebSocket streaming API が、すでに利用している統合パターンをカバーします。当社のエンジニアリングチームが一緒に cutover を進めるため、本番環境が止まることはありません。