AIコーディングエージェントのためのFish Audio:llms.txt、MCP、およびSkills
Fish Audioは、AIエージェント向けに構築された3つのネイティブインターフェースをリリースしました。ナビゲーション用のllms.txt、ライブAPI検索用のDocs MCPサーバー、そしてオフライン優先のコード生成を可能にするインストール可能なClaude Codeスキルです。ここでは、それぞれの役割、重要性、および5分以内で行えるセットアップ方法について説明します。
2026年5月 | Fish Audioのエージェント用ツール群がllms.txt、MCP、Skillsで利用可能になりました
ほとんどの開発者ドキュメントは人間向けに書かれています。ブラウザを開き、ガイドを読み、スニペットをコピーし、エディタに戻るという作業を想定しています。そのワークフローは、一人で作業している分には問題ありません。しかし、読み手がコーディングエージェントになった瞬間に破綻します。
Claude Code、Cursor、Codex、WindsurfなどのAIコーディングエージェントは、根本的に異なる形式のLLMフレンドリーなドキュメントを必要としています。彼らはブラウジングするのではなく、取得(フェッチ)します。見出しを流し読みするのではなく、構造を解析します。そして、コンテキストウィンドウがいっぱいになると、構造化されていないドキュメントはコードを押し出すノイズになってしまいます。
私たちはこれを目の当たりにしてきました。Fish AudioをLLMパイプラインに統合しようとする開発者は、常に同じ種類のミスに遭遇していました。コーディングエージェントが間違ったエンドポイントの認証コードを生成したり、トレーニングデータから非推奨のモデルIDを取得したり、古いスキーマに基づいてWebSocketペイロードを構築したりすることです。問題はAPIにあるのではなく、エージェントが生成時に現在の構造化されたドキュメントにアクセスするための信頼できる方法を持っていないことにありました。
Fish Audioは、これを解決するために特別に設計された3つのインターフェースをリリースしました。AIエージェントのナビゲーション用のllms.txt、ライブドキュメント検索用のDocs MCPサーバー、そしてオフライン優先のコード生成用のAgent Skillsです。Fish Audioはこれらすべてを主要な開発者機能として提供しており、それぞれ独立して使用可能で、3つすべてがコーディングエージェントのワークフローのためのエージェントネイティブなドキュメントレイヤーとして連携するように設計されています。
すでにFish Audioをお使いですか? https://docs.fish.audio/llms.txt を取得し、エージェントに指定してください。追加の構成は不要です。デベロッパーパネルで始める →
llms.txt:AIエージェントがドキュメントをナビゲートする方法
llms.txtとは?
llms.txtは、ウェブサイトの最も重要なコンテンツのクリーンで構造化されたインデックスをAIエージェントに提供する、新しく登場したオープン標準です。llmstxt.orgで定義されているこのフォーマットは、ドメインのルートに配置されるMarkdownファイルであり、意味のあるカテゴリに整理された、短い説明付きの厳選されたリンクのリストです。
LLM版のrobots.txtと考えてください。ただし、エージェントに何を避けるべきかを教えるのではなく、llms.txtはどこから始めるべきかを正確に伝えます。Fish Audioはllms.txtを使用して、コーディングエージェントにAPIドキュメントへの構造化されたノイズの少ないエントリポイントを提供します。
ほとんどのドキュメントウェブサイトには数百のページがあります。コーディングエージェントがドキュメントサイト全体をそのまま読み込むと、変更履歴、非推奨のエンドポイント、マーケティングコピーなど、タスクに関係のないコンテンツにコンテキストウィンドウのトークンを浪費してしまいます。適切に作成されたllms.txtは、それらを厳選された高シグナルなエントリポイントに絞り込みます。これは、応答の高速化、トークンコストの削減、そしてより正確なコード生成を意味します。
この標準では、より深いコンテキストを必要とするエージェント向けに、より完全なページコンテンツを含む拡張版であるllms-full.txtも定義されています。どちらもプレーンなMarkdownであり、すべてのLLMが前処理なしで解析できます。
Fish Audioのllms.txtとllms-full.txt
Fish Audioは、認証なしで利用可能な2つのバージョンを公開しています:
docs.fish.audio/llms.txt — 「ここから開始」、「API仕様」、「コアREST API」、「SDK」、「製品ガイド」、「運用ドキュメント」の6つのカテゴリに整理された、厳選されたノイズの少ないインデックスです。このファイルはエージェントクイックスタートのリンクとAIコーディングエージェントガイドへの直接パスで始まっており、どんなエージェントも一度のフェッチで状況を把握できます。すべてのリンクはHTMLではなく.mdファイルを指しているため、エージェントはマークアップを取り除くことなくコンテンツを直接解析できます。
docs.fish.audio/llms-full.txt — 完全な感情リファレンス、すべてのSDKページ、すべてのRESTおよびWebSocketエンドポイント、さらに英語、中国語、日本語にわたる音声クローニング、リアルタイムストリーミング、音素制御の拡張ガイドを含む、より広範なバージョンです。
Fish Audioが使用している構造を示す簡略化されたllms.txtの例を以下に示します:
# Fish Audio
> Fish AudioのAPI、SDK、モデル、音声クローニング、リアルタイムストリーミング、およびセルフホスティングの標準ドキュメントインデックス。
## ここから開始
- [Agent Quickstart]: AIエージェント向けの最小ノイズのエントリポイント
- [Quick Start]: 5分以内に最初のAI音声を生成する
- [AI Coding Agents]: MCP経由でコーディングアシスタントを接続する
## コアREST API
- [Text to Speech Endpoint]: テキストを音声に変換する
- [Speech to Text Endpoint]: 音声をテキストに書き起こす
- [WebSocket TTS Streaming]: WebSocketによるリアルタイムストリーミング
...
llms.txt標準は、開発者ツールやAIインフラストラクチャ全体で急速に採用されています。Anthropic Claude、Perplexity、Cloudflare、Vercel、Cursor、ElevenLabs、Coinbaseなどの企業がすでに独自の実装を公開しています。Fish Audioは、llms.txt、MCP、およびインストール可能なエージェントスキルのすべてで完全に構造化された実装を提供しています。各レイヤーは独立して使用可能で、連携するように設計されています。「ここから開始」セクションは、コーディングエージェントに単なるリンク集ではなく、意思決定ツリーを提供するように特別に設計されています。
エージェントが実際にどのように使用するか
コーディングエージェントに「Fish AudioのTTSをPythonで実装して」と依頼すると、適切に構成されたエージェントはまずllms.txtを取得し、関連するページ(Python SDK、TTSエンドポイント、認証)を特定し、それらのページをMarkdownとして取得して、数ヶ月前の古い可能性のあるトレーニングデータからではなく、現在のドキュメントからコードを生成します。
これは見た目以上に重要です。APIスキーマは変更されます。モデルIDは非推奨になります。感情タグの構文はモデルの世代間で進化します。ライブドキュメントの取得がなければ、エージェントはもはや機能しない可能性のあるAPIのスナップショットに対してコードを生成していることになります。
2ファイルアプローチにより、エージェントに自然なエスカレーションパスが提供されます。まずはllms.txtで焦点を絞った低トークンのインデックスから始め、完全な感情リファレンスやエッジケースのストリーミング動作など、より深いコンテキストが必要な場合にはllms-full.txtにエスカレートします。
すでにFish Audioで開発していますか? コーディングエージェントに docs.fish.audio/llms.txt を指定して、古いAPIコールの生成を止めましょう。デベロッパーパネルで始める →
Docs MCP:コーディングエージェントのためのリアルタイムAPI検索
MCPとは?
MCP(Model Context Protocol)は、Claude CodeやCursorなどのAIコーディングエージェントが、エディタを離れることなくコード生成中にライブドキュメントや外部データを取得できるようにするオープンプロトコルです。
Fish AudioはMCPを使用して、完全なAPIドキュメントをコーディングエージェント内のリアルタイム検索レイヤーとして公開しています。Fish Audio MCPサーバーを接続すると、エージェントは「Fish Audioはどの感情タグをサポートしているか?」や「TTSエンドポイントのレート制限は?」といった質問に対して、数ヶ月前の古いトレーニングデータに頼るのではなく、公開されているドキュメントから現在の回答を取得して答えることができます。
Fish Audio MCPサーバーのセットアップ
Fish Audio Docs MCPサーバーは https://docs.fish.audio/mcp で利用可能です。セットアップは1つのコマンドで完了します。
MCPセットアップ:ステップバイステップチュートリアル
以下のウォークスルーでは、Claude Codeを例として使用します。Fish AudioのMCPサーバーはCursorおよびWindsurfもサポートしています。エディタ固有のセットアップリンクについては以下を参照してください。
ステップ1 — インストールコマンドの実行
プロジェクトディレクトリでターミナルを開き、以下を実行します:
claude mcp add --transport http fish-audio --scope project https://docs.fish.audio/mcp
これにより、プロジェクトのルートに.mcp.json設定ファイルが作成されます。--scope projectフラグは、このプロジェクトで作業している全員がサーバーを直接利用できることを意味します。
ステップ2 — 接続の確認
claude mcp list
設定されたサーバーのリストにfish-audioが表示されるはずです。表示されない場合は、プロジェクトディレクトリ内でコマンドを実行しているか確認してください。
ステップ3 — テスト
Claude Codeに直接聞いてみてください。「現在利用可能なFish Audioモデルは何ですか?」や「Fish Audio APIの認証方法を教えてください」。MCPサーバーが接続されていれば、Claude Codeはトレーニングデータに頼るのではなく、ライブドキュメントから回答を取得します。
よくある問題:
claude mcp listにサーバーが表示されない場合は、最新バージョンのClaude Codeがインストールされていることを確認してください。特定のプロジェクトだけでなく、すべてのプロジェクトでサーバーを利用できるようにしたい場合は、--scope projectを--scope userに置き換えてください。
Fish Audio APIを初めてお使いですか? MCPサーバーを接続する前に、APIの紹介 → で認証、エンドポイント、レスポンス形式を理解することから始めましょう。
Claude Code (クイックリファレンス):
claude mcp add --transport http fish-audio --scope project https://docs.fish.audio/mcp
これにより、プロジェクトのルートに.mcp.jsonファイルが作成されます。接続を確認:
claude mcp list
# fish-audio と表示されればOKです
Cursor: コマンドパレット経由でセットアップします。Cursorセットアップガイドを参照 →
Windsurf: File > Preferences > Windsurf Settings経由でセットアップします。Windsurfセットアップガイドを参照 →
接続されると、コーディングエージェントは以下の情報にリアルタイムでアクセスできるようになります:
- すべてのパラメータとレスポンススキーマを含む完全なREST APIリファレンス
- PythonおよびJavaScript SDKのガイドと実用的な例
- 音声クローニングとリアルタイムストリーミングのベストプラクティス
- モデルの比較、現在の価格、およびレート制限の表
- 一般的な統合問題のトラブルシューティングガイド
接続後に質問できること
Fish Audio MCPサーバーは、エディタ内での自然言語クエリ用に設計されています。いくつかの例を挙げます:
| クエリ | エージェントが取得するもの |
|---|---|
| 「Fish Audioの認証方法は?」 | PythonまたはJS SDKドキュメントの認証ガイド |
| 「利用可能な感情タグは?」 | 完全な感情リファレンス(Basic、Advanced、Tone、Audio Effectの各カテゴリの64以上のタグすべて) |
| 「WebSocketストリーミングのPythonコードを見せて」 | 現在のストリーミングプロトコルを含むWebSocket TTSガイド |
| 「S1とS2の違いは何?」 | 機能比較を含むモデルの概要 — Fish AudioがS2をオープンソース化 → も参照 |
| 「音声をクローンするには?」 | リファレンスオーディオの要件を含む音声クローニングガイド |
MCPサーバーは公開されているドキュメントからライブAPI検索を行うため、回答には最新の利用可能なAPIリファレンスが反映されます。Fish Audioが新しいモデルをリリースしたりエンドポイントを更新したりすると、エージェントは次のクエリでそれを認識します。
セキュリティ: MCPサーバーは公開ドキュメントへの読み取り専用アクセスを提供します。接続を通じてAPIキーが送信されることはありません。すべてのリクエストはHTTPSを使用します。クエリや使用状況データが保存されることはありません。
まだFish Audioを使用していませんか? 無料で開始 → — 30秒以内にMCPサーバーを追加し、ライブドキュメントから直接TTS統合を生成しましょう。
Agent Skills:50以上のコーディングエージェントのためのオフライン優先API指示セット
Agent Skillsとは?
Agent Skillsは、コーディングエージェント用の再利用可能な指示セットです。生成時にライブドキュメントを取得することなく、特定のタスクをどのように処理すべきかをエージェントに正確に伝える構造化されたSKILL.mdファイルです。
各スキルには、名前、説明、および一致するタスクが発生したときにエージェントが自動的に従うステップバイステップの指示が含まれています。
スキルはエージェントのローカルスキルディレクトリにインストールされます。正確なパスはエージェントによって異なります。例えば、Claude Codeはグローバルには~/.claude/skills/を、プロジェクト単位では.claude/skills/を使用します。インストールされると、エージェントは追加のプロンプトなしでスキルを読み取ります。MCPサーバーは不要です。生成時のネットワークコールも不要です。
オープンなエージェントスキルエコシステム(Vercel Labsが管理)は、仕様を定義し、スキルのインストール、更新、管理のためのCLI npx skills を提供しています。現在は、Claude Code、Codex、Cursor、Windsurf、OpenCode、Gemini CLI、GitHub Copilotを含む50以上のエージェントをサポートしています。
Fish Audioスキルのインストール
Fish Audioは、RESTおよびWebSocket APIを完全に網羅した既製のAgent Skillを公開しています:認証、OpenAPIスキーマの全エンドポイント、MessagePack対JSON対マルチパートエンコーディングのルール、マルチスピーカー対話のセットアップ、およびWebSocketストリーミングプロトコルが含まれます。
npx skills add https://docs.fish.audio --skill fish-audio-api
スキルはエージェントのローカルディレクトリにインストールされます。インストールしたら、コーディングエージェントに以下のように聞いてみてください:
- 「curlでFish Audio TTS APIを呼び出して」
- 「PythonでWebSocketを介してTTSをストリーミングして」
- 「[happy]や[sad]のような感情タグを使用してマルチスピーカー対話をセットアップして」
- 「[whispering]スタイルを使用してS2で音声を生成して」
サポートされている感情タグの全リストと高度な配信制御については、Fish Audio S2 詳細制御ガイド → を参照してください。
マルチキャラクタープロジェクトを構築していますか? 実践的なセットアップガイドについては、複数の音声によるテキスト読み上げ → を参照してください。
スキルは規約を提供し、エージェントはドキュメントを事前に取得することなくそれに従います。
特定のエージェント用にインストールする場合:
# Claude Codeのみ
npx skills add https://docs.fish.audio --skill fish-audio-api -a claude-code
# Codexのみ
npx skills add https://docs.fish.audio --skill fish-audio-api -a codex
# 検出されたすべてのエージェントに一括インストール
npx skills add https://docs.fish.audio --skill fish-audio-api --all
サポートされているエージェントフラグの全リストについては、npx skills --help を実行してください。
MCPとSkills:どちらを使うべきか?
どちらのツールも、Fish Audioを使用したコーディングエージェントの正確性を高めます。これらは異なるシナリオに最適化されています。
| MCP | Agent Skills | |
|---|---|---|
| ドキュメントの鮮度 | 常に最新 — ライブで取得 | インストール時に固定 — npx skills update で更新 |
| ネットワーク接続 | 必要 | 不要 — インストール後は完全にオフラインで動作 |
| 最適な用途 | 自由な質問、新機能の探索、エッジケースのデバッグ | 反復的なタスク、標準化されたコード生成、CI/CD環境 |
| セットアップ | mcp add コマンド1つ | npx skills add コマンド1つ |
| 対応ツール | Claude Code, Cursor, Windsurf | Claude Code, Codex, Cursor, Windsurf, Gemini CLIを含む50以上のエージェント |
実用的なルール:ライブドキュメントの検索や探索的なクエリにはMCPを使用してください。既知のパターンに基づいた信頼性の高い、オフライン優先のコード生成にはスキルを使用してください。
ほとんどのプロダクションセットアップでは、両方を使用するのが理にかなっています。スキルは、ネットワークの往復なしで認証、基本的なTTS呼び出し、WebSocketセットアップなどの標準的なパターンを処理します。MCPは、新しいモデルパラメータ、更新されたレート制限、ストリーミングプロトコルのエッジケースなど、予想していなかった質問を処理します。
なぜ従来のドキュメントはAIエージェントにとって不十分なのか
従来のAPIドキュメントは、人間がブラウジングするために最適化されています。AIコーディングエージェントが必要としているのは別のものです。構造化されたインデックス、ノイズの少ないMarkdown、そして古い世代のコードや無駄なコンテキストトークンを削減するライブ検索パスです。
ほとんどのAPIドキュメントは、特定のワークフローに合わせて設計されてきました。開発者がブラウザを開き、必要なエンドポイントを検索し、ページを読み、スニペットをコピーするという流れです。このワークフローは何年もの間、うまく機能してきました。
その根本にある「読み手はブラウザを使っている人間である」という前提は、今や検討に値します。AIコーディングエージェントはブラウザを使用しません。彼らは生のコンテンツを取得し、解析し、取得したものからコードを生成します。ナビゲーションメニュー、検索バー、レンダリングされたHTML、埋め込みメディアなど、人間にとってドキュメントを読みやすくするインフラストラクチャは、エージェントにとってはメリットではなく摩擦になります。
いくつかの特定のパターンが、最も多くの問題を引き起こします:
プライマリフォーマットとしてのHTML。 エージェントは技術的にはHTMLを解析できますが、そこにはレイアウトタグ、スクリプト、ナビゲーション要素など、タスクに関係のない大量の構造化マークアップが含まれています。10,000文字のHTMLページに、実際のドキュメントは2,000文字しか含まれていないこともあります。コンテキストウィンドウが有限である場合、このギャップには現実的なコストが伴います。
明確なエントリポイントの欠如。 200ページあるドキュメントサイトは、エージェントにどこから始めるべきかのシグナルを与えません。構造化されたインデックスがなければ、エージェントは大量のコンテンツを取り込みすぎる(トークンの浪費)か、間違ったページを取り込む(誤ったコードの生成)かのどちらかになります。
古くなりやすいコンテンツ。 モデルID、エンドポイントパス、パラメータ名は変更されます。明確なバージョニングや非推奨のシグナルがないドキュメントは、エージェントがもはや正確ではない可能性のある仕様に基づいてコードを生成する原因となります。
これはドキュメントのこれまでの作られ方を批判するものではありません。当時は適切な対象に向けて作られていたのです。今の実際的な問いは、AIコーディングエージェントが開発者とAPIのやり取りにおいて重要な役割を果たすようになる中で、あなたのAIエージェント用ドキュメントは両方の対象に対して機能しているか、ということです。
Fish Audioのllms.txt、MCPサーバー、およびAgent Skillsは、その問いに対する私たちの答えです。同じドキュメントを、人間が読めるAPIドキュメントとしても、LLMやコーディングエージェントが読めるAI対応ドキュメントとしても機能させる3つのレイヤーです。
全体像:3つすべてがどのように連携するか
実際のワークフローにおける、完全な3レイヤーのセットアップは以下のようになります:
-
エージェントがプロジェクトを開き、Fish Audioのタスクに遭遇する。 まず
llms.txtを取得し、個別のページを取り込む前に、利用可能なすべてのLLMフレンドリーなドキュメントの構造化されたマップを得ます。トークンコストは最小限。状況把握にかかる時間は、1回のフェッチ分です。 -
エージェントがコードを生成する。
fish-audio-apiスキルがインストールされていれば、認証、エンコーディング形式、ストリーミングプロトコルに関するスキルの規約を利用します。標準的なパターンについてはドキュメントを取得する必要はありません。出力は最初の生成からAPI仕様と一致します。 -
エージェントが特定の何か(現在のモデルID、レート制限、S2の感情タグ構文など)を確認する必要がある。 MCPサーバーにクエリを送信し、公開ドキュメントから直接回答を得ます。これにより、古い、あるいは不正確な生成のリスクが軽減されます。
その結果、最初の試行で正確なFish Audio統合を生成するコーディングエージェントが実現します。何度も修正を繰り返す必要はなく、エンドポイントやモデルIDがトレーニング時から変更されていないかを推測する必要もありません。
エージェントネイティブなドキュメントで、音声機能をより速くリリースしましょう。Fish Audioスキルを一度インストールすれば、あらゆるプロジェクトでプロダクションセーフなTTSパターンを再利用できます。MCPサーバーを接続して、コーディングエージェント自身にドキュメントを読ませましょう。
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
Sabrina Shuの他の記事を読む
