2026年開発者向け最安のテキスト読み上げ（TTS）API：実際のコストを徹底分析

2026年3月1日

2026年開発者向け最安のテキスト読み上げ（TTS）API：実際のコストを徹底分析

アプリの音声機能に月額40ドルを予算として組んでいたとします。半年後、請求額は380ドルになり、その理由がすぐには説明できない。これは、実際のユーザーが利用し始めた時のシミュレーションをせず、無料枠だけでTTS APIを選んでしまった開発者によくある展開です。

「カタログ上の最安」と「実際の利用状況での最安」の間には大きな開きがあります。ほとんどの価格設定ページは無料枠を前面に出し、超過料金を分かりにくい場所に隠しています。また、一部のプラットフォームは、不要な機能を中心にコストモデル全体を構築しています。インテグレーションが完了してロックインされる前にこれを正しく理解しておくことは、単なる節約以上の価値があります。

ほとんどのTTS価格ページが大きく表示しないコスト

TTSの請求額を膨らませる3つの要素は、選択前に読む比較記事にはめったに登場しません。

文字単位 vs リクエスト単位の課金。 文字単位の課金は予測可能です。一方、アプリが1セッション中に短い文字列を何度も送信する場合、リクエスト単位の課金は厄介です。リクエスト単位のモデルでは、10単語の確認メッセージも200単語の段落も同じコストがかかります。

機能制限（ゲート）。 一部のプラットフォームでは、標準音声に基本料金を設定し、ニューラル音声に倍率をかけ、音声クローンにさらに追加料金を課し、ストリーミングには別項目で請求します。0.006ドル/1,000文字で始まったものが、製品に必要な機能を有効にする頃には0.024ドルになっています。

無料枠の崖。 Googleの無料枠は寛大です。Azureはさらに寛大で、月間50万文字まで無料です。しかし、どちらも制限に達すると厳格にリセットされ、請求サイクルの途中で制限に達しても警告は出ません。トラフィックが急増した途端、その月全体を遡って有料レートで支払うことになります。

私はある金曜日の午後10時にGoogle TTSの無料枠制限に達しました。APIは429エラーを返し始め、請求コンソールには0ドルと表示され、文字数レベルで月間割当がリセットされた（リクエストレベルではない）ことを突き止めるのに20分かかりました。ドキュメントには記載されていますが、夜中に429エラーをデバッグしている時にスキャンするセクションではありません。このドキュメント化されていないエッジケースのせいで、貴重な夜の時間が奪われることになります。

セルフホストという選択肢は、これらすべてを変える唯一の逃げ道です。APIプロバイダーがオープンソースモデルを提供していれば、コストの上限は新しいユーザーが増えるごとに増える文字単価ではなく、計算リソース（コンピューティング）の価格になります。

デベロッパーノート: ほとんどのTTS APIは、アカウントの記念日ではなく、UTC時間の毎月1日午前0時に無料枠の割当をリセットします。月末に制限が近づいている場合は、重要ではないTTS呼び出しを制限（スロットル）しないと、崖から落ちてサイクル残りの期間を有料レートで支払うことになります。

TTS API 価格比較：2026年

プラットフォーム	無料枠	従量課金	プラン開始価格	音声クローン	ストリーミング	オープンソース
Fish Audio	あり	透明性の高い従量制	フレキシブル	込み	あり	あり (Fish Speech)
ElevenLabs	10,000 文字/月	プランに含む	$5/月	込み (有料)	あり	なし
Azure TTS	500,000 文字/月	約$4/100万文字	エンタープライズ	制限あり	あり	なし
Google TTS	400万文字/月 (標準)	約$4/100万文字	従量課金	なし	制限あり	なし
OpenAI TTS	なし	文字数ベース	なし	なし	あり	なし
Amazon Polly	500万文字/月 (標準)	約$4/100万文字 (標準)	従量課金	なし	あり	なし

表を見る限り比較的平坦に見えますが、各プラットフォームが各価格帯で何を含んでいるかを考慮すると状況は変わります。

Fish Audio：機能制限なしの従量課金が意味すること

ほとんどのTTS APIはティア（階層）を販売し、そのティアによって提供内容が決まります。Fish Audioの構造は異なり、機能のロックアウトがない従量課金制です。音声クローン、ストリーミング、多言語サポート、そして200万以上のコミュニティボイスへのアクセスが、すべて同じAPI呼び出しに含まれています。

製品を構築する開発者にとって、これは文字単価単体よりも重要です。基本機能に一つの価格を、競合に勝つために必要な機能のロック解除に別の価格を支払う必要はありません。機能が増えてもコストモデルは指数関数的ではなく、線形（リニア）なままです。

ボイスライブラリに関する正直な注意点：Fish Audioのコミュニティカタログは膨大ですが、品質にはばらつきがあります。200万以上のコレクションの中には、明らかにプロダクション品質のQAレビューを通過できないようなホビーユーザーによる録音も含まれています。実際にリリースできる音声を見つけるまでには、フィルタリングに時間を費やすことになるでしょう。このフィルタリング作業は、価格ページには記載されていない実際のコストと言えます。

同時実行数（コンカレンシー）の上限も注目に値します。Fish Audioは高い同時リクエストをサポートしています。つまり、製品が注目を集めた時に、同時にAPIを叩くユーザー数によってリクエスト単価が変わるような、管理可能な請求を緊急事態に変えてしまうような失敗モードに陥ることはありません。

月間2,000万文字の場合、Fish Audioの従量課金とElevenLabsのBusinessティアの差額は月額約800ドルになります。これは導入前にスプレッドシートに記入しておくべき数字です。多言語コンテンツを追加すると、ElevenLabsの品質面での優位性が縮まるため、この差はさらに広がります。

計算を根本から変える要素：Fish Audioは、基盤となるモデルであるFish SpeechをGitHubでオープンソース化しています。月間5,000万文字を超えると、セルフホストの損益分岐点にすぐに到達します。APIの文字単価ではなく、コンピューティングリソースに対して支払うことになるからです。初期段階の製品の多くにとっては時期尚早かもしれませんが、出口戦略（エグジットランプ）が存在することを知っておくことは、ベンダーロックインに対する考え方を変えます。

APIドキュメントは docs.fish.audio に、価格設定は fish.audio/plan にあります。従量課金モデルは、ユーザーが本当にアプリの音声機能を求めているかどうかを検証している段階で、月額の最低支払額に縛られないことを意味します。

私がテストしたチャットボットのインテグレーションでは、エンドツーエンドのレイテンシは500ミリ秒未満でした。コストは規模が拡大しても予測可能なままでした。ストリーミング配信によって1セッションあたりのペイロードサイズが削減されるため、返却前にサーバー側で完了したオーディオバッファを保持する必要がないため、レイテンシと課金対象となるデータのサイズの両面で有利に働きます。

デベロッパーノート: 文字単位の課金は単純に聞こえますが、プラットフォームによって文字のカウント方法が異なることに注意してください。スペースをカウントするもの、カウントしないもの、SSMLマークアップタグを課金対象に含めるものなどがあります。あるプラットフォームから別のプラットフォームに移行する前に、同じ10,000文字のテスト用コーパスを両方のAPIに送り、実際に請求されるカウント数を比較してください。コンテンツのタイプによっては、5〜15%の不一致が生じることがあります。

ElevenLabs：英語には最適、ただし高価

現在、ElevenLabsは市場で最高の英語音声品質を誇っています。月額5ドルのスタータープランでは30,000文字が提供され、トラフィックの少ないアプリであれば十分にカバーできます。音声クローンは有料ティアに含まれています。

問題は、月間10万文字を超えた時に発生します。ElevenLabsのCreatorティア（月額22ドル）では、超過料金がプラン内単価よりも高くなります。つまり、100,001文字目は50,000文字目よりも高価になるのです。アプリでTTS呼び出しにハードリミットを設けていない場合、一週間忙しいだけで請求額がプラン価格を大幅に上回る可能性があります。AIコンパニオンやオーディオブックツールを構築している開発者が、請求時にこの問題に直面することがあります。

英語以外のコンテンツについては、ElevenLabsと他のプロバイダーとの品質差は大幅に縮まり、価格のプレミアムを正当化することが難しくなります。

音声品質がコア製品の差別化要因であり、利用ボリュームが中程度に留まる英語圏向けのアプリには最適な選択肢です。

Google TTS：最高の無料枠、ただし注意点あり

標準音声で月間400万文字無料というのは、APIエコノミーにおいて間違いなく最高の開発者補助の一つです。これを活用しましょう。プロトタイプや初期段階の製品であれば、数ヶ月間何も支払わずに済むかもしれません。APIはシンプルでドキュメントも充実しており、ほとんどのGoogle Cloudワークフローに既に組み込まれています。

注意点：音声クローンがなく、パーソナライズが制限されており、最新のニューラルモデルと比較すると長文コンテンツでの品質差が目立ちます。無料枠を超えた後の文字単価は競争力がありますが、Googleのボイスカタログに固定され、プロバイダーを完全に切り替えない限りカスタマイズの道はありません。

コストだけが重要な変数であるプロトタイピングや低ボリュームのアプリに最適です。

Azure TTS：カスタム機能が必要になるまでは寛大

月間50万文字無料は、この比較の中で最も寛大な無料枠であり、AzureのNeural TTSの品質も大幅に向上しました。既にAzureインフラを利用している場合、請求の一元化だけでも現実的な選択肢になるでしょう。

トレードオフはカスタマイズ性です。カスタムニューラル音声にはエンタープライズ契約と多大なセットアップが必要です。無料枠終了後の文字単価は適正ですが、クローン作成や感情制御を必要とする開発者向けの機能の深さは、特化型のTTSプラットフォームと比較すると限定的です。

OpenAI TTS：便利だが、価格面での競争力は低い

製品が他の機能で既にOpenAI APIを呼び出している場合、同じクライアントを通じてTTSを追加するのは摩擦が少ない方法です。音声の選択肢は限られており（11種類）、TTSの無料枠はなく、文字単価は特化型の代替サービスよりも高価です。

OpenAIスタックで構築しており、ベンダーを一本化したい場合の便利な選択肢として検討に値します。TTSが主要な機能であり、コスト効率が重要な場合には適切な選択ではありません。

Amazon Polly：AWSユーザー向け

Pollyの500万文字/月、12ヶ月間の無料枠は、このカテゴリーで最も寛大な期間限定オファーです。その後、Neural TTSのレートはGoogleやAzureと同等になります。

SSMLサポートが強力で、IVR（音声応答）システムや、発音やペースの正確な制御が必要なアプリケーションにおいて重要です。音声クローンはありません。AWSを利用しているなら統合はスムーズですが、そうでない場合、セットアップのオーバーヘッドは単体のTTS APIと比較して見合うものではありません。

どのプラットフォームがボリュームに合っているか

最安のTTS APIは、製品ライフサイクルのどの段階にいるかによってほぼ決まります。

プロトタイピング（月間400万文字未満）： Google TTSの無料枠がカバーしてくれます。ユーザーが定着するまで一銭も払う必要はありません。

初期段階の製品（月間100万〜1,000万文字）： クローン作成や多言語サポートが必要かどうかに応じて、Fish AudioまたはGoogleを選択します。必要な場合は、Fish Audioのコミコミの価格設定の方が、複数のプロバイダーから機能を組み合わせるよりもコスト効率が良い可能性が高いです。

成長期の製品（月間1,000万〜5,000万文字）： 超過料金を慎重にシミュレーションしてください。このボリュームでは、Fish Audioの従量課金制が、プランのアップグレードを強いるティア制プラットフォームよりも優れたパフォーマンスを発揮するのが一般的です。2,000万文字での月額800ドルの差は、スプレッドシートの有用な指標になります。

大規模（月間5,000万文字以上）： セルフホストの計算を始めてください。Fish Audioのオープンソースモデルなら、文字単価はやがて計算リソースのコストになり、ベンダーへの支払いではなくなります。この比較対象の中で、そのようなオープンソースの道を提供しているプラットフォームは他にありません。

英語のみ、品質が製品そのもの： ElevenLabs。ユーザーが熱心に聞き、英語のみを提供する場合、音声品質がプレミアム価格を正当化します。ただし、超過料金に不意を突かれないよう、TTS呼び出しに厳格なレート制限を設定してください。

結論

「最安」は利用規模のオーダーが変わるたびに変化します。導入前に超過料金の構造をモデル化しておかないと、初月に無料だったプラットフォームが12ヶ月目にはインフラコストの最大項目になっている可能性があります。

Fish Audioの従量課金制、機能制限なし、そしてオープンソースという出口戦略は、初期段階から大規模利用まで、最もコスト予測がしやすい選択肢となります。完璧ではありません。コミュニティのボイスカタログはフィルタリングが必要ですし、リリース前に音声をQAチェックする必要があるでしょう。純粋な英語で低ボリュームのアプリなら、Googleの無料枠に勝るものはありません。ElevenLabsは、超過料金に注意が必要という条件付きで、中程度のボリュームにおける英語品質のプレミアムな選択肢です。

導入を決める前に、価格設定ページを確認してください。無料枠で簡単にテストでき、docs.fish.audio のAPIドキュメントを使えば、最初の呼び出しも簡単に行えます。

よくある質問

月間400万文字未満のプロトタイプや初期段階の製品であれば、Google TTSの無料標準音声ティアが一切費用がかかりません。最初から音声クローン、ストリーミング、多言語サポートが必要な製品の場合、[Fish Audio](https://fish.audio)の従量課金モデルが通常最もコスト効率が良くなります。これらの機能に追加料金がかからないためです。

はい。[Fish Audio](https://fish.audio)は、完全なインテグレーションの構築とテストに十分な割当の無料枠を提供しています。現在の無料枠の詳細は [fish.audio/plan](https://fish.audio/plan/) をご確認ください。

そのボリュームでは、[Fish Audioのオープンソースモデル](https://github.com/fishaudio) (Fish Speech) をセルフホストするのが最もコスト効率の高い選択肢です。1文字あたりのコストはAPI利用料ではなく、コンピューティングリソースのコストになります。他の主要なTTSプロバイダーで、これに匹敵するオープンソースの道を提供しているところはありません。

ほとんどのプラットフォームには、プレミアム音声の倍率、ストリーミングの追加料金、リクエストごとの音声クローン料、または生成された音声の保存料など、少なくとも1つの隠れた費用があります。[Fish Audio](https://fish.audio)のモデルには、音声クローン、ストリーミング、多言語サポートが基本料金に含まれており、機能制限による追加料金はありません。

基本的なインテグレーションパターン（テキストを含むHTTPリクエストを送信し、音声を受信する）は、すべての主要プロバイダーで共通しています。切り替えには通常、エンドポイントURL、認証情報、ボイスIDパラメータの更新が含まれます。主な作業は、特定のコンテンツに対する音声品質の再検証です。

音声品質が製品の主要な差別化要因となる英語のみのアプリケーションであれば、価値はあります。多言語アプリや、TTSが核となる体験ではなくサポート機能である製品の場合、[Fish Audio](https://fish.audio)と比較して高い価格を正当化するのは難しくなります。導入前に、超過料金の構造を詳しく確認してください。

リアルに感じる声を作成する

今日から最高品質のオーディオを生成し始めましょう。

無料でサインアップ

すでにアカウントをお持ちですか？ログイン

この記事を共有する

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Kyle Cuiの他の記事を読む >