2026年6月23日リサーチ

Fish Audio S2.1 Pro: 開発者向け無料テキスト読み上げ（TTS）API

クイックサマリー:

Fish Audio の最新かつ最高性能の音声モデルである S2.1 Pro が、無料のテキスト読み上げ（TTS）API として利用可能になりました。

83 言語に対応、フェアユースポリシーの範囲内で無制限に利用可能。

モデル名: s2.1-pro-free — 既存の Fish API 呼び出しに組み込むだけで利用できます。

S2.1 Pro を無料で試す — 5分以内に最初の音声を生成 →

2026年6月 | Fish Audio の S2.1 Pro モデルが、フェアユースの下で無制限にアクセス可能な無料テキスト読み上げ（TTS）API として利用可能になりました。

なぜ高品質な音声 AI は常に高価だったのか

テキスト読み上げ API を検討したことがある方なら、既にあるパターンにお気づきでしょう。それは「実際に質の良いモデルは費用がかかる」ということです。

ElevenLabs の無料プランでは、ペイウォールが発生する前に月間 10,000 クレジット（約 6 〜 10 分分）しか提供されません。OpenAI TTS は従量課金制で、無料枠は一切ありません。Google の最新モデルである Gemini TTS モデルも、最初のトークンから課金されます。業界全体を通じて、「最先端の音声品質は有料機能」というのが一貫したパターンでした。

これは開発者にとって深刻な問題を引き起こします。AI 音声ジェネレーター市場は毎年 20% 近い成長を遂げていますが、音声対応製品を構築するためのツールはペイウォールの裏側に留まったままです。10,000 クレジットでは、モデルを適切に評価することさえできません。予算を事前に確保するか、自前の GPU インフラを必要とするオープンソースの代替品と格闘することなしには、ボイスエージェントの試作やオーディオブックのパイプライン構築、ボイスクローニング（音声クローン）の実験もままなりませんでした。

Fish Audio は今日、それを変えます。

S2.1 Pro とは？

S2.1-Pro ベンチマーク：並列度 1 から 512 までのスループット (tok/s) と TTFB p50 (ms)。c=64 で 8,006 tok/s、c=1 で 73.2ms の TTFB を示している

S2.1 Pro は Fish Audio の現在の最先端音声モデルです。当社が持つ最高のモデルが、API を通じてすべての開発者に無料で提供されます。これはプロダクション・グレードの AI 音声生成のために設計されたニューラル音声合成モデルであり、特に低レイテンシのストリーミング、多言語 TTS、およびボイスクローニングに強みを持っています。これは、今年初めにオープンウェイトとして公開した S2 の基盤の上に構築されています。

パフォーマンス

前世代の S2 Pro とのブラインド比較評価において、61% の勝率を記録（詳細は当社の TTS プロバイダー比較を参照）。
単一リクエストで ~70ms の Time-to-First-Audio (TTFA / 最初の音声出力までの時間) を実現（前世代の ~100ms から短縮）。
高並列負荷下でのスループットが 2 倍以上に向上。

技術的な背景の詳細は、当社の論文をご覧ください：こちら

対応言語

S2.1 Pro は、日本語、英語、中国語、韓国語、スペイン語、アラビア語、フランス語、ドイツ語、ポルトガル語、ロシア語を含む 83 言語をサポートしています。単一のモデルですべての言語を処理するため、エンドポイントを分ける必要も、言語ごとの価格設定もありません。

レイテンシ

S2.1 Pro は標準 API で約 90ms の TTFA を提供し、リアルタイムのボイスエージェントや対話システムでの利用を可能にします。韻律や話し方のきめ細かな制御が必要な場合は、S2 の単語レベルの音声制御機能も参照してください。

なぜ Fish Audio は今、これを無料で提供できるのか

Fish Audio S2.1-Pro 推論インフラ：FP8 GEMM とカスタムスケジューラを備えた NVIDIA H200。1リクエストあたり 125 オーディオトークン/秒（RTF 0.17）と ~70ms の TTFA を実現

手短に言うと：推論スタックをゼロから再構築した結果、リクエストあたりのコストが大幅に低下し、当社で吸収できるようになったためです。

カスタム GPU カーネル

当社は、NVIDIA Hopper (H100/H200) および Blackwell (RTX 6000 PRO) アーキテクチャを対象としたプロダクション・グレードの FP8 GEMM および FlashAttention ライブラリである fish-scales-ops を開発しました。音声 AI 配信に重要なデコード形状において、当社の MXFP8 パスは torch.compile 融合の cuBLAS リファレンスを 2.1 〜 4.3 倍上回ります。API を使うためにこれらを理解する必要はありませんが、これが無料枠を持続可能にしている理由です。

より高いスループット

FP8 量子化を施した単一の H200 上で、システムは 64 個の同時リクエストに対して 8,000 トークン/秒を超える出力スループットを維持します。GPU あたりのスループットが向上するということは、1 ドルあたりに処理できるリクエスト数が増えることを意味し、それが無制限の無料アクセスの経済的存立を可能にしています。

「無料」が実際に意味すること

隠し事をするよりも、制約事項について率直にお伝えします。

得られるもの:

モデル名: s2.1-pro-free
明確な文字数制限のない大量アクセス（フェアユースポリシーが適用されます）
有料プランと同じ API エンドポイント — 統合の手間は変わりません

現在の制限事項:

期間: 無料アクセスは 2026年7月24日まで提供されます。変更がある場合は事前にお知らせします。
SLA なし: 稼働時間や TTFA の保証はありません。実験やプロトタイピング向けです。
レイテンシ保証なし: ベストエフォート型であり、契約上の保証はありません。
データ保持: リクエストはモデルの品質向上のために使用される場合があります。詳細はプライバシーポリシーをご覧ください。
商用利用: 一部の商用シナリオには制限がある場合があります。ARR（年間経常収益）が 100 万ドルを超える製品については、S2.1 Pro Free を使用する前に当社にお問い合わせください。詳細は価格とレート制限をご確認ください。

本番環境での SLA やレイテンシ保証が必要な場合は、有料プランをご利用いただけます。この無料枠は、構築し、評価し、判断するための最適な場所です。

無料テキスト読み上げ API の使い方: S2.1 Pro クイックスタート

fish.audio/app/api-keys で API キーを取得し、最初の呼び出しを行ってください。Fish API は msgpack エンコードされたリクエストを受け付け、選択したフォーマットで音声を返します。詳細は API ドキュメントを参照してください。

JavaScript

import { writeFile } from "fs/promises";

const body = {
  text: "こんにちは、世界！",
  reference_id: "your_model_id",
  format: "mp3",
};

const res = await fetch("https://api.fish.audio/v1/tts", {
  method: "POST",
  headers: {
    Authorization: "Bearer <YOUR_API_KEY>",
    "Content-Type": "application/json",
    model: "s2.1-pro-free",
  },
  body: JSON.stringify(body),
});

if (!res.ok) {
  throw new Error(`TTS request failed: ${res.status} ${await res.text()}`);
}

const buffer = Buffer.from(await res.arrayBuffer());
await writeFile("output.mp3", buffer);

Python

import httpx

body = {
    "text": "こんにちは、世界！",
    "reference_id": "your_model_id",
    "format": "mp3",
}

with httpx.Client() as client:
    res = client.post(
        "https://api.fish.audio/v1/tts",
        headers={
            "Authorization": "Bearer <YOUR_API_KEY>",
            "Content-Type": "application/json",
            "model": "s2.1-pro-free",
        },
        json=body,
    )

res.raise_for_status()

with open("output.mp3", "wb") as f:
    f.write(res.content)

他の Fish Audio API 呼び出しとの唯一の違いは、ヘッダーに model: "s2.1-pro-free" を設定することだけです。

無料の API キーを取得する →

S2.1 Pro vs ElevenLabs：2026年における最高の TTS API との比較

以下の競合他社の情報は、2026年6月時点の公開ドキュメントおよび価格ページに基づいています。価格や機能は変更される可能性があるため、最終決定の前に各プロバイダーに直接確認してください。

2026年の無料 TTS API の比較：Fish Audio S2.1-Pro vs ElevenLabs vs OpenAI TTS vs Google Cloud TTS

より詳細な独立分析については、ブラインド TTS プロバイダー比較 2026 をご覧ください。

結論: 評価した主要な TTS API プロバイダーの中で、Fish Audio は現在、最も寛大な無料アクセスモデルを提供しています。無料枠で有料枠と同じ最新モデルを動作させ、かつ厳格な使用制限を設けていないのは当社だけです。ElevenLabs の無料枠は実質的に 10,000 クレジットのお試し版です。Google の最新の TTS (Gemini TTS) には無料枠が全くありません。

モデルの品質に妥協しない無料の ElevenLabs 代替品をお探しですか？ S2.1 Pro は現在、使用制限なしで利用可能です。

無料の OpenAI TTS 代替品をお探しですか？ OpenAI の TTS サービスには無料枠がありません。S2.1 Pro は最初に検討すべき強力な選択肢です。

API ドキュメントを確認して構築を始める →

何を作れるか

無料枠では、ユースケースをあえて制限していません。S2.1 Pro の「低レイテンシ AI 音声生成」「多言語対応」「ボイスクローニング」の組み合わせが最も効果を発揮するシナリオをいくつか紹介します。

ボイスエージェント

リアルタイムの対話型 AI の成否はレイテンシで決まります。標準的な呼び出しで約 90ms の TTFA を実現する S2.1 Pro は、自然なターン制の対話に十分な速さを備えています。音声認識（STT）層や LLM と組み合わせることで、文字単価の請求を気にすることなく音声パイプライン全体を構築できます。また、MCP およびエージェントスキル・サポートを通じて S2.1 Pro をエージェントワークフローに統合することも可能です。

オーディオブックと長文ナレーション

83 言語への対応と自然な韻律により、S2.1 Pro はオーディオブック制作や長文の音声合成に適しています。使用量に制限がないため、文字カウンターを気にしたり、クレジットを事前に購入したりすることなく、原稿全体を処理できます。

ボイスクローニング（音声クローン）

S2.1 Pro は API を通じて参照音声からのボイスクローニングをサポートしています。参照音声サンプルを渡すだけで、モデルはその声で音声を合成します。パーソナライズされた音声アプリケーションの構築、一貫した話者アイデンティティによるコンテンツのローカライズ、ゲームやアニメのキャラクター音声の生成などが可能です。ボイスクローニングも無料枠で利用可能ですが、フェアユースポリシーが適用されます。

多言語アプリケーション

複数の言語を話すユーザーにサービスを提供する場合、単一の AI 音声 API で 83 言語をカバーできることは、言語ごとにエンドポイントが必要だったり、英語以外の音声合成に割増料金がかかったりする代替手段と比較して、開発を大幅に簡素化します。

ゲームの NPC ダイアログ

ゲーム音声のパイプラインは、高いスループットと予測可能なリクエスト単価の恩恵を受けます。無料枠を無制限に利用できることで、本番の予算を確保する前に、開発中に膨大なダイアログライブラリを生成し、自由に試行錯誤することが実用的になります。

パートナーエコシステムを通じて利用可能

S2.1 Pro は、Runware、Retell、Sierra など、増え続けるパートナープラットフォームを通じても利用可能です。

既にこれらのプラットフォームで開発を行っている場合、追加の統合やセットアップなしで S2.1 Pro にアクセスできます。現在お使いの環境をそのままご利用ください。

当社はパートナーネットワークを積極的に拡大しています。S2.1 Pro の統合に興味のあるプラットフォームやインフラプロバイダーの方は、当社のチームまでお問い合わせください。

フェアユースと今後の展開

無料枠はフェアユースポリシーに基づいて運営されます。開発ではなく乱用と思われる利用パターンに対しては、アクセスを制限する権利を留保します。これは、正当なユースケースに対して恣意的な制限を設けるためではなく、開発者コミュニティ全体のアクセスを保護することを目的としています。詳細は価格とレート制限をご覧ください。

今後の予定は以下の通りです：

無料アクセスは現在公開中です。変更がある場合は、事前にお知らせします。
本番環境向けに、SLA 保証、レイテンシ確約、商用ライセンスを備えた有料プランが用意されています。
インフラへの投資は継続中です。この無料枠を実現したエンジニアリング作業は、一度きりのイベントではありません。
オープンソース・インフラ: 無料枠を持続可能にしている、S2.1 Pro の背後にあるインフラコンポーネントをオープンソース化する計画があります。

本番導入のために Fish Audio を評価されている場合、無料枠は最適なスタート地点です。実際に何かを構築し、アプリケーションにとって重要な指標を測定し、本番要件について話し合う準備ができたら、ぜひご連絡ください。

クレジットカード不要。ウェイティングリストなし。試せることに制限はありません。

無料の API キーを取得する →

よくある質問

テキスト読み上げ（TTS）API とは何ですか？

テキスト読み上げ API（TTS API）は、書かれたテキストを音声に変換するウェブサービスです。開発者はテキスト文字列を API エンドポイントに送信し、MP3、WAV、Opus などの音声ファイルを返り値として受け取ります。これらはアプリケーション内で再生、保存、またはリアルタイムでストリーミングできます。S2.1 Pro のような最新の AI 音声 API は、ニューラル音声合成モデルを使用して、人間の声と区別がつかないほど自然な音声を生成します。

Fish Audio S2.1 Pro は本当に無料ですか？

はい。S2.1 Pro は Fish API を通じて、モデル名 `s2.1-pro-free` を指定することで無料で利用可能です。厳格な文字数制限はありませんが、乱用を防ぐためのフェアユースポリシーが適用されます。無料枠には SLA やレイテンシの保証はなく、リクエスト内容はモデル改善のために保持される場合があります。これは開発、プロトタイピング、評価のために設計されています。詳細は[価格とレート制限](https://docs.fish.audio/developer-guide/models-pricing/pricing-and-rate-limits)をご確認ください。

2026年で最高の無料 TTS API はどれですか？

最適な無料 TTS API はユースケースによって異なります。主要プロバイダーの中で、Fish Audio S2.1 Pro は最新世代のモデルに対して、厳格な使用制限なしで 83 言語対応の寛大な無料アクセスを提供しています。ElevenLabs は月間 10,000 クレジットの無料枠を音声ライブラリとともに提供しています。Google の従来の WaveNet 音声は月間 400 万文字まで無料です。OpenAI TTS や Google の最新の Gemini TTS には無料枠はありません。予算の制約なしに最先端の AI 音声 API を評価したい開発者にとって、S2.1 Pro は強力な選択肢となります。

Fish Audio は ElevenLabs と比べてどうですか？

Fish Audio と ElevenLabs は、どちらも高品質なニューラル音声生成とボイスクローニングを提供しています。無料枠における主な実用的な違いは、Fish Audio が有料枠と同じ S2.1 Pro モデルを制限なしで提供しているのに対し、ElevenLabs の無料枠は月間 10,000 クレジットに制限されている点です。対応言語数では、Fish Audio は 83 言語以上、ElevenLabs は 70 言語以上をサポートしています。ElevenLabs は構築済みの音声ライブラリが豊富で、クリエイティブコンテンツのエコシステムが確立されています。Fish Audio は、低レイテンシ、高並列、または多言語対応を必要とする開発者向けのユースケースに強い傾向があります。詳細は[ブラインド TTS 比較](https://fish.audio/blog/blind-tts-provider-comparison-2026/)をご覧ください。

Fish Audio はボイスクローニングをサポートしていますか？

はい。S2.1 Pro は[参照音声からのボイスクローニング](https://docs.fish.audio/features/voice-cloning)をサポートしています。参照音声サンプルを渡すことで、モデルはその声で音声を合成します。これはサポートされている 83 言語すべてで機能し、一貫した話者の特定が必要なコンテンツのローカライズに特に有用です。当社のボイスクローニングシステムは、高い話者の一貫性、自然な韻律、言語やアクセントを問わない安定したパフォーマンスを提供します。ボイスクローニングは無料枠でも、他の用途と同様にフェアユースポリシーの下で利用可能です。

Fish Audio を商用利用できますか？

無料枠（`s2.1-pro-free`）は、特定の商用シナリオにおいて制限がある場合があります。完全なライセンス、SLA、データ非保持を伴う本番環境での商用利用については、Fish Audio の有料プランをご参照ください。現在のポリシーについては、[価格とレート制限](https://docs.fish.audio/developer-guide/models-pricing/pricing-and-rate-limits)および[利用規約](https://fish.audio/terms/)をご確認ください。

Fish Audio はどの言語をサポートしていますか？

S2.1 Pro は、日本語、英語、韓国語、中国語、スペイン語、ポルトガル語、アラビア語、フランス語、ドイツ語、ロシア語、イタリア語、トルコ語、オランダ語、ポーランド語、ベトナム語、タイ語、インドネシア語など、83 言語をサポートしています。すべての言語は単一のモデルで提供され、言語ごとのエンドポイントや個別の価格体系はありません。