Zeitlich begrenztes Angebot- 50% RABATT JÄHRLICHEinlösen
29. Mai 2026LEITFADEN

Fish Audio für AI Coding Agents: llms.txt, MCP und Skills

Fish Audio für AI Coding Agents: llms.txt, MCP und Skills

Fish Audio bietet ab sofort drei native Schnittstellen für KI-Agenten an – llms.txt zur Navigation, einen Docs MCP-Server für den Live-API-Abgleich und installierbare Claude Code Skills für die Offline-first-Codegenerierung. Erfahren Sie hier, was jede Schnittstelle macht, warum sie wichtig ist und wie Sie sie in weniger als fünf Minuten einrichten.

Mai 2026 | Fish Audio Agent-Tooling ist jetzt über llms.txt, MCP und Skills verfügbar


Die meisten Entwicklerdokumentationen sind für Menschen geschrieben. Sie setzen voraus, dass Sie einen Browser öffnen, eine Anleitung lesen, einen Codeschnipsel kopieren und zurück zu Ihrem Editor wechseln. Dieser Workflow ist in Ordnung, wenn Sie alleine arbeiten. Er bricht jedoch in dem Moment zusammen, in dem Ihr Coding-Agent das Lesen übernimmt.

AI Coding Agents – wie Claude Code, Cursor, Codex, Windsurf und eine wachsende Liste anderer – benötigen LLM-freundliche Dokumentation in einer fundamental anderen Form. Sie browsen nicht. Sie rufen ab. Sie überfliegen keine Überschriften; sie parsen Strukturen. Und wenn sich ein Kontextfenster füllt, wird unstrukturierte Dokumentation zu Rauschen, das den Code verdrängt.

Wir haben das aus erster Hand miterlebt. Entwickler, die Fish Audio in LLM-Pipelines integrierten, stießen immer wieder auf dieselbe Art von Fehlern: Coding-Agenten generierten Authentifizierungscode für den falschen Endpunkt, zogen veraltete Modell-IDs aus Trainingsdaten oder konstruierten WebSocket-Payloads nach einem veralteten Schema. Das Problem war nicht die API – es war die Tatsache, dass Agenten keinen zuverlässigen Weg hatten, um zum Zeitpunkt der Generierung auf aktuelle, strukturierte Dokumentation zuzugreifen.

Fish Audio bietet nun drei speziell entwickelte Schnittstellen an, um dies zu lösen: llms.txt für die Navigation von KI-Agenten, einen Docs MCP-Server für den Live-Dokumentationsabgleich und Agent Skills für die Offline-first-Codegenerierung. Fish Audio stellt alle drei als erstklassige Entwicklerfunktionen bereit – jede für sich nutzbar und alle drei darauf ausgelegt, zusammen als agenten-native Dokumentationsebene für jeden Coding-Agent-Workflow zu fungieren.

Nutzen Sie Fish Audio bereits? Rufen Sie https://docs.fish.audio/llms.txt ab und weisen Sie Ihren Agenten jetzt darauf hin – keine zusätzliche Konfiguration erforderlich. Starten Sie im Developer Panel →


llms.txt: Wie KI-Agenten durch Ihre Docs navigieren

Was ist llms.txt?

Vergleich, der zeigt, wie llms.txt KI-Agenten einen strukturierten Einstiegspunkt bietet gegenüber dem Crawlen einer unstrukturierten Dokumentationsseite

llms.txt ist ein aufstrebender offener Standard, der KI-Agenten einen sauberen, strukturierten Index der wichtigsten Inhalte einer Website bietet. Definiert auf llmstxt.org, ist das Format eine Markdown-Datei, die im Root-Verzeichnis einer Domain liegt – eine kuratierte Liste von Links mit kurzen Beschreibungen, organisiert in sinnvollen Kategorien.

Stellen Sie es sich wie eine robots.txt für LLMs vor – nur dass llms.txt den Agenten nicht sagt, was sie meiden sollen, sondern genau zeigt, wo sie anfangen sollen. Fish Audio nutzt llms.txt, um Coding-Agenten einen strukturierten, rauscharmen Einstiegspunkt in seine API-Dokumentation zu bieten.

Die meisten Dokumentations-Websites haben hunderte von Seiten. Wenn ein Coding-Agent eine gesamte Dokumentationsseite ungefiltert einliest, verschwendet er Tokens im Kontextfenster für Inhalte, die für die Aufgabe irrelevant sind – Changelog-Einträge, veraltete Endpunkte, Marketing-Texte. Eine gut gestaltete llms.txt filtert dies auf einen kuratierten Satz hochwertiger Einstiegspunkte herunter, was zu schnelleren Antworten, niedrigeren Token-Kosten und einer präziseren Codegenerierung führt.

Der Standard definiert auch llms-full.txt – eine umfassendere Variante, die vollständige Seiteninhalte für Agenten enthält, die tieferen Kontext benötigen. Beide sind reines Markdown, das jedes LLM ohne Vorverarbeitung parsen kann.

Fish Audio's llms.txt und llms-full.txt

Fish Audio veröffentlicht zwei Versionen, beide ohne Authentifizierung verfügbar:

docs.fish.audio/llms.txt – ein kuratierter, rauscharmer Index, der in sechs Kategorien unterteilt ist: Start Here, API Specs, Core REST API, SDKs, Product Guides und Operational Docs. Die Datei beginnt mit einem Agent Quickstart-Link und einem direkten Pfad zum AI Coding Agents Leitfaden, sodass sich jeder Agent mit einem einzigen Abruf orientieren kann. Jeder Link weist auf eine .md-Datei hin – nicht auf HTML – damit Agenten den Inhalt direkt ohne Markup-Entfernung parsen können.

docs.fish.audio/llms-full.txt – eine umfassendere Version, die die vollständige Emotions-Referenz, alle SDK-Seiten, jeden REST- und WebSocket-Endpunkt sowie erweiterte Anleitungen für Voice Cloning, Echtzeit-Streaming und Phonem-Steuerung in Englisch, Chinesisch und Japanisch enthält.

Hier ist ein vereinfachtes llms.txt-Beispiel, das die von Fish Audio verwendete Struktur zeigt:


# Fish Audio

> Kanonischer Dokumentationsindex für Fish Audio APIs, SDKs, Modelle,
> Voice Cloning, Echtzeit-Streaming und Self-Hosting.

## Start Here
- [Agent Quickstart]: Rauscharmer Einstiegspunkt für KI-Agenten
- [Quick Start]: Generieren Sie Ihre erste KI-Stimme in unter 5 Minuten
- [AI Coding Agents]: Verbinden Sie Coding-Assistenten via MCP

## Core REST API
- [Text to Speech Endpoint]: Text in Sprache umwandeln
- [Speech to Text Endpoint]: Audio in Text transkribieren
- [WebSocket TTS Streaming]: Echtzeit-Streaming via WebSocket
...

Der llms.txt-Standard wurde in der Entwickler-Tooling- und KI-Infrastruktur-Branche schnell angenommen – Unternehmen wie Anthropic Claude, Perplexity, Cloudflare, Vercel, Cursor, ElevenLabs und Coinbase veröffentlichen bereits eigene Implementierungen. Fish Audio bietet eine voll strukturierte Implementierung über llms.txt, MCP und installierbare Agent Skills – jede Ebene ist unabhängig nutzbar und darauf ausgelegt, zusammenzuarbeiten. Der Bereich "Start Here" ist speziell darauf ausgelegt, Coding-Agenten einen Entscheidungsbaum zu bieten, nicht nur eine Linkliste.

Wie ein Agent es in der Praxis nutzt

Wenn Sie einen Coding-Agenten bitten, "Fish Audio TTS in Python zu implementieren", ruft ein gut konfigurierter Agent zuerst llms.txt ab, identifiziert die relevanten Seiten (Python SDK, TTS-Endpunkt, Authentifizierung), lädt diese Seiten als Markdown und generiert Code basierend auf der aktuellen Dokumentation – nicht auf Trainingsdaten, die Monate alt sein könnten.

Das ist wichtiger, als es klingt. API-Schemas ändern sich. Modell-IDs werden veraltet. Die Syntax von Emotions-Tags entwickelt sich zwischen Modellgenerationen weiter. Ohne einen Live-Dokumentationsabruf generiert ein Agent Code gegen einen Schnappschuss der API, der möglicherweise nicht mehr funktioniert.

Der Zwei-Dateien-Ansatz bietet Agenten einen natürlichen Eskalationspfad: Beginnen Sie mit llms.txt für einen fokussierten, token-sparenden Index; wechseln Sie zu llms-full.txt, wenn eine Aufgabe tieferen Kontext erfordert, wie die vollständige Emotions-Referenz oder spezielles Streaming-Verhalten.

Bauen Sie bereits mit Fish Audio? Verweisen Sie Ihren Coding-Agenten auf docs.fish.audio/llms.txt und hören Sie auf, veraltete API-Aufrufe zu generieren. Starten Sie im Developer Panel →


Docs MCP: Real-Time API Lookup für Coding Agents

Was ist MCP?

Diagramm, das zeigt, wie der Fish Audio MCP-Server einen Coding-Agenten mit der Live-Dokumentation verbindet

MCP (Model Context Protocol) ist ein offenes Protokoll, das es KI-Agenten wie Claude Code und Cursor ermöglicht, Live-Dokumentation und externe Daten während der Codegenerierung abzurufen – ohne den Editor zu verlassen.

Fish Audio nutzt MCP, um seine gesamte API-Dokumentation als Echtzeit-Abrufebene innerhalb von Coding-Agenten bereitzustellen. Wenn Sie den Fish Audio MCP-Server verbinden, kann Ihr Agent Fragen wie "welche Emotions-Tags unterstützt Fish Audio?" oder "wie hoch ist das Rate-Limit für den TTS-Endpunkt?" beantworten, indem er die aktuelle Antwort aus der veröffentlichten Dokumentation abruft, anstatt sich auf veraltete Trainingsdaten zu verlassen.

Einrichtung des Fish Audio MCP-Servers

Der Fish Audio Docs MCP-Server ist unter https://docs.fish.audio/mcp verfügbar. Die Einrichtung erfolgt mit einem Befehl.

MCP Setup: Schritt-für-Schritt-Anleitung

Das folgende Beispiel verwendet Claude Code. Der MCP-Server von Fish Audio unterstützt auch Cursor und Windsurf – siehe die editorspezifischen Setup-Links unten.

Schritt 1 – Installationsbefehl ausführen

Öffnen Sie Ihr Terminal in Ihrem Projektverzeichnis und führen Sie aus:

claude mcp add --transport http fish-audio --scope project https://docs.fish.audio/mcp

Dies erstellt eine .mcp.json-Konfigurationsdatei in Ihrem Projekt-Root. Das Flag --scope project bedeutet, dass der Server für jeden verfügbar ist, der direkt in diesem Projekt arbeitet.

Schritt 2 – Verbindung überprüfen

claude mcp list

Sie sollten fish-audio in der Liste der konfigurierten Server sehen. Falls es nicht erscheint, stellen Sie sicher, dass Sie den Befehl innerhalb eines Projektverzeichnisses ausführen.

Schritt 3 – Testen

Fragen Sie Claude Code direkt: "Welche Fish Audio Modelle sind derzeit verfügbar?" oder "Wie authentifiziere ich mich bei der Fish Audio API?" Wenn der MCP-Server verbunden ist, wird Claude Code die Antwort aus der Live-Dokumentation abrufen.

Häufige Probleme:

Falls der Server nicht in der claude mcp list erscheint, vergewissern Sie sich, dass Sie die neueste Version von Claude Code installiert haben. Wenn der Server über alle Projekte hinweg verfügbar sein soll, ersetzen Sie --scope project durch --scope user.

Neu bei der Fish Audio API? Beginnen Sie mit der API-Einführung →, um Authentifizierung, Endpunkte und Antwortformate zu verstehen, bevor Sie den MCP-Server verbinden.

Claude Code (Kurzreferenz):

claude mcp add --transport http fish-audio --scope project https://docs.fish.audio/mcp

Dies erstellt eine .mcp.json-Datei in Ihrem Projekt-Root. Verbindung prüfen:

claude mcp list
# Sie sollten sehen: fish-audio

Cursor: Einrichtung über die Befehlspalette. Siehe Cursor Setup-Leitfaden →

Windsurf: Einrichtung über File > Preferences > Windsurf Settings. Siehe Windsurf Setup-Leitfaden →

Einmal verbunden, hat Ihr Coding-Agent Echtzeit-Zugriff auf:

  • Vollständige REST API Referenz mit allen Parametern und Antwort-Schemas
  • Python und JavaScript SDK Anleitungen und funktionierende Beispiele
  • Best Practices für Voice Cloning und Echtzeit-Streaming
  • Modellvergleich sowie aktuelle Preis- und Rate-Limit-Tabellen
  • Troubleshooting-Leitfäden für häufige Integrationsprobleme

Was Sie nach der Verbindung fragen können

Der Fish Audio MCP-Server ist für Abfragen in natürlicher Sprache innerhalb Ihres Editors konzipiert. Einige Beispiele:

AbfrageWas der Agent abruft
"Wie authentifiziere ich mich bei Fish Audio?"Authentifizierungs-Leitfaden aus den Python- oder JS-SDK-Docs
"Welche Emotions-Tags sind verfügbar?"Vollständige Emotions-Referenz – alle 64+ Tags aus den Kategorien Basic, Advanced, Tone und Audio Effect
"Zeig mir Python-Code für WebSocket-Streaming"WebSocket TTS-Leitfaden mit dem aktuellen Streaming-Protokoll
"Was ist der Unterschied zwischen S1 und S2?"Modellübersicht mit Funktionsvergleich – siehe auch: Fish Audio Open-Sources S2 →
"Wie klone ich eine Stimme?"Voice-Cloning-Leitfaden mit Anforderungen an das Referenz-Audio

Da der MCP-Server Live-API-Daten aus der veröffentlichten Dokumentation abruft, spiegeln die Antworten die aktuellste verfügbare API-Referenz wider. Wenn Fish Audio ein neues Modell veröffentlicht oder einen Endpunkt aktualisiert, sieht Ihr Agent dies bei der nächsten Abfrage.

Sicherheit: Der MCP-Server bietet nur Lesezugriff auf öffentliche Dokumentationen. Es werden keine API-Keys über die Verbindung übertragen. Alle Anfragen nutzen HTTPS. Es werden keine Abfragen oder Nutzungsdaten gespeichert.

Nutzen Sie Fish Audio noch nicht? Kostenlos starten → – fügen Sie den MCP-Server in unter 30 Sekunden hinzu und generieren Sie funktionierende TTS-Integrationen direkt aus der Live-Dokumentation.


Agent Skills: Offline-First API-Anweisungen für 50+ Coding Agents

Was sind Agent Skills?

Diagramm, das zeigt, wie eine Fish Audio SKILL.md-Datei installiert und von Claude Code, Codex und Cursor verwendet wird

Agent Skills sind wiederverwendbare Befehlssätze für Coding-Agenten – strukturierte SKILL.md-Dateien, die einem Agenten genau sagen, wie er eine bestimmte Aufgabe bearbeiten soll, ohne dass bei der Generierung ein Live-Dokumentationsabruf erforderlich ist.

Jeder Skill enthält einen Namen, eine Beschreibung und Schritt-für-Schritt-Anweisungen, denen der Agent automatisch folgt, wenn eine passende Aufgabe ansteht.

Skills werden im lokalen Skill-Verzeichnis eines Agenten installiert. Der genaue Pfad variiert je nach Agent – Claude Code verwendet beispielsweise ~/.claude/skills/ global oder .claude/skills/ pro Projekt. Einmal installiert, liest der Agent den Skill ohne zusätzliche Aufforderung. Kein MCP-Server erforderlich. Kein Netzwerkaufruf zum Zeitpunkt der Generierung.

Das offene Agent-Skills-Ökosystem (gepflegt von Vercel Labs) definiert die Spezifikation und bietet ein CLI – npx skills – zum Installieren, Aktualisieren und Verwalten von Skills an. Es unterstützt derzeit über 50 Agenten, darunter Claude Code, Codex, Cursor, Windsurf, OpenCode, Gemini CLI und GitHub Copilot.

Installation des Fish Audio Skills

Fish Audio veröffentlicht einen fertigen Agent Skill, der die gesamte REST- und WebSocket-API abdeckt: Authentifizierung, jeden Endpunkt im OpenAPI-Schema, MessagePack vs. JSON vs. Multipart-Encoding-Regeln, Multi-Speaker-Dialog-Setup und das WebSocket-Streaming-Protokoll.

npx skills add https://docs.fish.audio --skill fish-audio-api

Der Skill wird in Ihrem lokalen Agent-Verzeichnis installiert. Fragen Sie Ihren Coding-Agenten danach beispielsweise:

  • "Rufe die Fish Audio TTS-API mit curl auf"
  • "Streame TTS über WebSocket in Python"
  • "Richte einen Multi-Speaker-Dialog mit Emotions-Tags wie [happy] und [sad] ein"
  • "Generiere Sprache mit S2 im [whispering] Stil"

Für die vollständige Liste der unterstützten Emotions-Tags und fortgeschrittenen Steuerungsmöglichkeiten siehe den Fish Audio S2 Fine-Grained Control Leitfaden →

Bauen Sie ein Projekt mit mehreren Charakteren? Siehe Text to Speech mit mehreren Stimmen → für eine praktische Anleitung.

Der Skill gibt die Konventionen vor – der Agent folgt ihnen, ohne zuerst die Dokumentation abrufen zu müssen.

Installation für einen spezifischen Agenten:

# Nur Claude Code
npx skills add https://docs.fish.audio --skill fish-audio-api -a claude-code

# Nur Codex
npx skills add https://docs.fish.audio --skill fish-audio-api -a codex

# Alle erkannten Agenten gleichzeitig
npx skills add https://docs.fish.audio --skill fish-audio-api --all

Führen Sie npx skills --help aus, um die vollständige Liste der unterstützten Agent-Flags zu sehen.

MCP vs. Skills: Was sollten Sie verwenden?

Beide Tools machen Ihren Coding-Agenten bei der Arbeit mit Fish Audio präziser. Sie sind für unterschiedliche Szenarien optimiert.

MCPAgent Skills
Aktualität der DokumentationImmer aktuell – Live-AbrufFestgelegt zum Installationszeitpunkt – npx skills update zum Aktualisieren
Netzwerk erforderlichJaNein – funktioniert nach der Installation vollständig offline
Bestens geeignet fürOffene Fragen, Erkunden neuer Funktionen, Debugging von GrenzfällenWiederholbare Aufgaben, standardisierte Codegenerierung, CI/CD-Umgebungen
EinrichtungEin mcp add-BefehlEin npx skills add-Befehl
Funktioniert inClaude Code, Cursor, Windsurf50+ Agenten inklusive Claude Code, Codex, Cursor, Windsurf, Gemini CLI

Die Faustregel für die Praxis: Nutzen Sie MCP für die Live-Suche in der Dokumentation und explorative Abfragen. Nutzen Sie Skills für eine zuverlässige Offline-first-Codegenerierung bei bekannten Mustern.

In den meisten Produktionsumgebungen ist es sinnvoll, beides zu nutzen. Der Skill übernimmt Standardmuster – Authentifizierung, einfache TTS-Aufrufe, WebSocket-Setup – ohne Netzwerkverzögerung. MCP beantwortet die Fragen, die Sie nicht vorhergesehen haben: neue Modellparameter, aktualisierte Rate-Limits, Grenzfälle im Streaming-Protokoll.


Warum traditionelle Dokumentation für KI-Agenten oft unzureichend ist

Vergleich von traditioneller HTML-Dokumentation gegenüber agenten-bereiten Markdown-Docs für AI Coding Agents

Traditionelle API-Dokumentation ist für das menschliche Browsen optimiert. KI-Agenten benötigen etwas anderes: strukturierte Indizes, rauscharmes Markdown und Live-Abrufwege, die veraltete Generierungen und verschwendete Kontext-Tokens reduzieren.

Die meiste API-Dokumentation wurde für einen spezifischen Workflow entworfen: Ein Entwickler öffnet einen Browser, sucht den benötigten Endpunkt, liest die Seite und kopiert einen Codeschnipsel. Dieser Workflow hat jahrelang gut funktioniert.

Die zugrunde liegende Annahme – dass der Leser ein Mensch mit einem Browser ist – muss nun hinterfragt werden. KI-Agenten benutzen keine Browser. Sie rufen Rohdaten ab, parsen diese und generieren Code daraus. Die Infrastruktur, die Dokumentation für Menschen lesbar macht – Navigationsmenüs, Suchleisten, gerendertes HTML, eingebettete Medien – erzeugt für Agenten eher Reibung, als sie zu verringern.

Einige spezifische Muster verursachen die meisten Probleme:

HTML als Primärformat. Agenten können technisch gesehen HTML parsen, aber es enthält eine große Menge an strukturellem Markup, das für die Aufgabe irrelevant ist – Layout-Tags, Skripte, Navigationselemente. Eine Seite mit 10.000 Zeichen HTML enthält vielleicht nur 2.000 Zeichen eigentliche Dokumentation. Diese Lücke verursacht reale Kosten, da Kontextfenster begrenzt sind.

Kein klarer Einstiegspunkt. Eine Dokumentationsseite mit 200 Seiten gibt einem Agenten kein Signal, wo er anfangen soll. Ohne einen strukturierten Index rufen Agenten entweder zu viel Inhalt ab (Token-Verschwendung) oder laden die falschen Seiten (Generierung von fehlerhaftem Code).

Inhalte, die schlecht altern. Modell-IDs, Endpunkt-Pfade und Parameternamen ändern sich. Dokumentation, die kein klares Versionierungs- oder Deprecation-Signal hat, führt dazu, dass Agenten Code gegen Spezifikationen generieren, die möglicherweise nicht mehr aktuell sind.

Nichts davon ist Kritik daran, wie Dokumentation bisher aufgebaut wurde – sie wurde für die damals richtige Zielgruppe erstellt. Die praktische Frage lautet heute: Wenn KI-Agenten ein wesentlicher Bestandteil davon werden, wie Entwickler mit APIs interagieren, funktioniert Ihre Dokumentation dann für beide Zielgruppen?

Fish Audio's llms.txt, der MCP-Server und die Agent Skills sind unsere Antwort auf diese Frage – drei Ebenen, die dieselbe Dokumentation sowohl als menschenlesbare API-Docs als auch als KI-lesbare Dokumentation für LLMs und Coding-Agenten gleichermaßen nutzbar machen.


Das Gesamtbild: Wie alle drei zusammenarbeiten

Diagramm, das zeigt, wie Fish Audio llms.txt, MCP-Server und Agent Skills für AI Coding Agents zusammenarbeiten

So sieht das vollständige dreistufige Setup in einem realen Workflow aus:

  1. Der Agent öffnet Ihr Projekt und stößt auf eine Fish Audio-Aufgabe. Er ruft zuerst llms.txt ab – und erhält so eine strukturierte Karte aller verfügbaren LLM-freundlichen Dokumentationen, bevor er einzelne Seiten lädt. Token-Kosten: minimal. Orientierungszeit: ein Abruf.

  2. Der Agent generiert Code. Wenn der fish-audio-api Skill installiert ist, greift er auf die Konventionen des Skills für Authentifizierung, Kodierungsformate und Streaming-Protokolle zurück – für Standardmuster ist kein Dokumentationsabruf erforderlich. Das Ergebnis entspricht bereits bei der ersten Generierung der API-Spezifikation.

  3. Der Agent muss etwas Spezifisches verifizieren – eine aktuelle Modell-ID, ein Rate-Limit oder die Emotions-Syntax für S2. Er fragt den MCP-Server ab und erhält die Antwort direkt aus der veröffentlichten Dokumentation – was das Risiko veralteter oder fehlerhafter Generierungen minimiert.

Das Ergebnis ist ein Coding-Agent, der beim ersten Versuch präzise Fish Audio Integrationen generiert, mit weniger Hin-und-her-Korrekturen und ohne Rätselraten darüber, ob sich ein Endpunkt oder eine Modell-ID seit dem Training geändert hat.

Implementieren Sie Sprachfunktionen schneller mit agenten-nativer Dokumentation. Installieren Sie den Fish Audio Skill einmal und nutzen Sie produktionsreife TTS-Muster in jedem Projekt. Verbinden Sie den MCP-Server und lassen Sie Ihren Coding-Agenten die Dokumentation selbst lesen.

MCP einrichten → · Skill installieren → · Im Developer Panel starten →

Sabrina Shu

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Mehr von Sabrina Shu lesen

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Haben Sie bereits ein Konto? Einloggen