Fish Audio para Agentes de Codificación por IA: llms.txt, MCP y Skills
Fish Audio ahora ofrece tres interfaces nativas diseñadas para agentes de IA: llms.txt para navegación, un servidor Docs MCP para búsqueda de API en vivo y Claude Code skills instalables para la generación de código sin conexión. A continuación, explicamos qué hace cada una, por qué son importantes y cómo configurarlas en menos de cinco minutos.
Mayo de 2026 | Las herramientas de agentes de Fish Audio ya están disponibles en llms.txt, MCP y Skills
La mayoría de la documentación para desarrolladores está escrita para humanos. Se asume que abres un navegador, lees una guía, copias un fragmento y vuelves a tu editor. Ese flujo de trabajo es adecuado cuando trabajas solo, pero deja de funcionar en el momento en que tu agente de codificación es quien realiza la lectura.
Los agentes de codificación por IA — Claude Code, Cursor, Codex, Windsurf y una lista creciente de otros — necesitan documentación optimizada para LLM en un formato fundamentalmente diferente. Ellos no navegan, recuperan información. No revisan encabezados por encima; analizan estructuras. Y cuando una ventana de contexto se llena, la documentación no estructurada se convierte en ruido que desplaza al código.
Hemos visto esto de primera mano. Los desarrolladores que integraban Fish Audio en canales de LLM se encontraban constantemente con el mismo tipo de errores: agentes de codificación generando código de autenticación para el endpoint incorrecto, extrayendo IDs de modelos obsoletos de los datos de entrenamiento o construyendo payloads de WebSocket basados en un esquema desactualizado. El problema no era la API, sino que los agentes no tenían una forma fiable de acceder a documentación estructurada y actualizada en el momento de la generación.
Fish Audio ahora ofrece tres interfaces diseñadas específicamente para resolver esto: llms.txt para la navegación de agentes de IA, un servidor Docs MCP para la búsqueda de documentación en vivo y Agent Skills para la generación de código sin conexión. Fish Audio lanza estas tres funciones como características de desarrollador de primer nivel: cada una es utilizable de forma independiente y las tres están diseñadas para trabajar juntas como una capa de documentación nativa para cualquier flujo de trabajo de agentes de codificación.
¿Ya usas Fish Audio? Recupera https://docs.fish.audio/llms.txt y apunta tu agente hacia allí ahora; no requiere configuración adicional. Comienza en el Panel de Desarrolladores →
llms.txt: Cómo navegan los agentes de IA en tu documentación
¿Qué es llms.txt?
llms.txt es un estándar abierto emergente que proporciona a los agentes de IA un índice limpio y estructurado del contenido más importante de un sitio web. Definido en llmstxt.org, el formato consiste en un archivo Markdown ubicado en la raíz de un dominio: una lista seleccionada de enlaces con descripciones cortas, organizados en categorías significativas.
Piensa en ello como un robots.txt para LLMs, excepto que en lugar de decirles a los agentes qué evitar, llms.txt les indica exactamente por dónde empezar. Fish Audio utiliza llms.txt para ofrecer a los agentes de codificación un punto de entrada estructurado y sin ruido a su documentación de API.
La mayoría de los sitios web de documentación tienen cientos de páginas. Cuando un agente de codificación extrae un sitio completo de golpe, desperdicia tokens de la ventana de contexto en contenido que no es relevante para la tarea: entradas de registro de cambios, endpoints obsoletos o textos de marketing. Un llms.txt bien elaborado filtra eso a un conjunto seleccionado de puntos de entrada de alta señal, lo que significa respuestas más rápidas, menores costos de tokens y una generación de código más precisa.
El estándar también define llms-full.txt, una variante más amplia que incluye el contenido completo de las páginas para agentes que necesitan un contexto más profundo. Ambos son Markdown puro, que cualquier LLM puede analizar sin preprocesamiento.
llms.txt y llms-full.txt de Fish Audio
Fish Audio publica dos versiones, ambas disponibles sin autenticación:
docs.fish.audio/llms.txt – un índice seleccionado y con poco ruido organizado en seis categorías: Comenzar aquí (Start Here), Especificaciones de API, Core REST API, SDKs, Guías de producto y Documentación operativa. El archivo comienza con un enlace de Inicio rápido para agentes y una ruta directa a la guía de Agentes de codificación por IA, para que cualquier agente pueda orientarse en una sola recuperación. Cada enlace apunta a un archivo .md (no HTML), para que los agentes analicen el contenido directamente sin tener que eliminar el marcado.
docs.fish.audio/llms-full.txt – una versión más amplia que incluye la referencia completa de emociones, todas las páginas de SDK, cada endpoint de REST y WebSocket, y guías extendidas para clonación de voz, streaming en tiempo real y control de fonemas en inglés, chino y japonés.
Aquí tienes un ejemplo simplificado de llms.txt que muestra la estructura que utiliza Fish Audio:
# Fish Audio
> Índice de documentación canónico para las APIs, SDKs, modelos,
> clonación de voz, streaming en tiempo real y auto-alojamiento de Fish Audio.
## Comenzar aquí
- [Agent Quickstart]: Punto de entrada con ruido mínimo para agentes de IA
- [Quick Start]: Genera tu primera voz por IA en menos de 5 minutos
- [AI Coding Agents]: Conecta asistentes de codificación vía MCP
## Core REST API
- [Text to Speech Endpoint]: Convierte texto a voz
- [Speech to Text Endpoint]: Transcribe audio a texto
- [WebSocket TTS Streaming]: Streaming en tiempo real vía WebSocket
...
El estándar llms.txt ha tenido una adopción rápida en las herramientas de desarrollo e infraestructura de IA, con empresas como Anthropic Claude, Perplexity, Cloudflare, Vercel, Cursor, ElevenLabs y Coinbase publicando sus propias implementaciones. Fish Audio ofrece una implementación totalmente estructurada en llms.txt, MCP y skills de agente instalables; cada capa es utilizable de forma independiente y está diseñada para trabajar en conjunto. La sección "Comenzar aquí" está diseñada específicamente para ofrecer a los agentes de codificación un árbol de decisiones, no solo una lista de enlaces.
Cómo lo utiliza un agente en la práctica
Cuando le pides a un agente de codificación que "implemente Fish Audio TTS en Python", un agente bien configurado recupera primero llms.txt, identifica las páginas relevantes (Python SDK, TTS Endpoint, Authentication), extrae esas páginas como Markdown y genera código a partir de la documentación actual, no de datos de entrenamiento que podrían tener meses de antigüedad.
Esto es más importante de lo que parece. Los esquemas de API cambian. Los IDs de los modelos se deprecian. La sintaxis de las etiquetas de emoción evoluciona entre generaciones de modelos. Sin una recuperación de documentación en vivo, un agente genera código basándose en una instantánea de la API que podría ya no funcionar.
El enfoque de dos archivos ofrece a los agentes una ruta de escalada natural: comenzar con llms.txt para un índice enfocado y de bajos tokens; escalar a llms-full.txt cuando una tarea requiera un contexto más profundo, como la referencia completa de emociones o comportamientos de streaming para casos específicos.
¿Ya estás construyendo con Fish Audio? Apunta tu agente de codificación a docs.fish.audio/llms.txt y deja de generar llamadas de API obsoletas. Comienza en el Panel de Desarrolladores →
Docs MCP: Búsqueda de API en tiempo real para agentes de codificación
¿Qué es MCP?
MCP (Model Context Protocol) es un protocolo abierto que permite a los agentes de codificación de IA como Claude Code y Cursor recuperar documentación en vivo y datos externos durante la generación de código, sin salir del editor.
Fish Audio utiliza MCP para exponer su documentación completa de la API como una capa de recuperación en tiempo real dentro de los agentes de codificación. Cuando conectas el servidor MCP de Fish Audio, tu agente puede responder preguntas como "¿qué etiquetas de emoción soporta Fish Audio?" o "¿cuál es el límite de velocidad en el endpoint de TTS?" recuperando la respuesta actual de la documentación publicada, en lugar de confiar en datos de entrenamiento obsoletos.
Configuración del servidor MCP de Fish Audio
El servidor Docs MCP de Fish Audio está disponible en https://docs.fish.audio/mcp. La configuración se realiza con un solo comando.
Configuración de MCP: Tutorial paso a paso
La siguiente guía utiliza Claude Code como ejemplo. El servidor MCP de Fish Audio también es compatible con Cursor y Windsurf (consulta los enlaces de configuración específicos del editor a continuación).
Paso 1 — Ejecuta el comando de instalación
Abre tu terminal en el directorio de tu proyecto y ejecuta:
claude mcp add --transport http fish-audio --scope project https://docs.fish.audio/mcp
Esto crea un archivo de configuración .mcp.json en la raíz de tu proyecto. El flag --scope project significa que el servidor está disponible para todos los que trabajen directamente en este proyecto.
Paso 2 — Verifica la conexión
claude mcp list
Deberías ver fish-audio en la lista de servidores configurados. Si no aparece, verifica que estés ejecutando el comando dentro del directorio de un proyecto.
Paso 3 — Pruébalo
Pregunta directamente a Claude Code: "¿Qué modelos de Fish Audio están disponibles actualmente?" o "¿Cómo me autentico con la API de Fish Audio?". Si el servidor MCP está conectado, Claude Code recuperará la respuesta de la documentación en vivo en lugar de confiar en los datos de entrenamiento.
Problemas comunes:
Si el servidor no aparece en claude mcp list, confirma que tienes instalada la última versión de Claude Code. Si prefieres que el servidor esté disponible en todos tus proyectos en lugar de solo en uno, reemplaza --scope project por --scope user.
¿Eres nuevo en la API de Fish Audio? Comienza con la Introducción a la API → para entender la autenticación, los endpoints y los formatos de respuesta antes de conectar el servidor MCP.
Claude Code (referencia rápida):
claude mcp add --transport http fish-audio --scope project https://docs.fish.audio/mcp
Esto crea un archivo .mcp.json en la raíz de tu proyecto. Verifica la conexión:
claude mcp list
# Deberías ver: fish-audio
Cursor: Configúralo a través de la paleta de comandos. Ver guía de configuración para Cursor →
Windsurf: Configúralo en File > Preferences > Windsurf Settings. Ver guía de configuración para Windsurf →
Una vez conectado, tu agente de codificación tiene acceso en tiempo real a:
- Referencia completa de la API REST con todos los parámetros y esquemas de respuesta
- Guías de los SDK de Python y JavaScript con ejemplos funcionales
- Mejores prácticas para la clonación de voz y streaming en tiempo real
- Comparativa de modelos y tablas actuales de precios y límites de velocidad
- Guías de resolución de problemas para errores comunes de integración
Qué puedes preguntar una vez conectado
El servidor MCP de Fish Audio está diseñado para consultas en lenguaje natural dentro de tu editor. Algunos ejemplos:
| Consulta | Lo que el agente recupera |
|---|---|
| "¿Cómo me autentico con Fish Audio?" | Guía de autenticación de los documentos de los SDK de Python o JS |
| "¿Qué etiquetas de emoción están disponibles?" | Referencia completa de emociones (más de 64 etiquetas en categorías Básica, Avanzada, Tono y Efecto de Audio) |
| "Muéstrame código Python para streaming por WebSocket" | Guía de WebSocket TTS con el protocolo de streaming actual |
| "¿Cuál es la diferencia entre S1 y S2?" | Resumen de modelos con comparativa de capacidades — ver también: Fish Audio libera S2 como Open Source → |
| "¿Cómo clono una voz?" | Guía de clonación de voz con los requisitos del audio de referencia |
Dado que el servidor MCP utiliza la recuperación de API en vivo de la documentación publicada, las respuestas reflejan la referencia de API más reciente disponible. Cuando Fish Audio lanza un nuevo modelo o actualiza un endpoint, tu agente lo verá en la siguiente consulta.
Seguridad: El servidor MCP proporciona acceso de solo lectura a la documentación pública. No se transmiten claves de API a través de la conexión. Todas las solicitudes utilizan HTTPS. No se almacenan consultas ni datos de uso.
¿Aún no usas Fish Audio? Empieza gratis → — añade el servidor MCP en menos de 30 segundos y genera integraciones funcionales de TTS directamente desde la documentación en vivo.
Agent Skills: Instrucciones de API sin conexión para más de 50 agentes de codificación
¿Qué son las Agent Skills?
Las Agent Skills son conjuntos de instrucciones reutilizables para agentes de codificación: archivos SKILL.md estructurados que le indican a un agente exactamente cómo manejar una tarea específica, sin requerir la recuperación de documentación en vivo en el momento de la generación.
Cada skill contiene un nombre, una descripción e instrucciones paso a paso que el agente sigue automáticamente cuando surge una tarea coincidente.
Las skills se instalan en el directorio local de skills del agente. La ruta exacta varía según el agente; por ejemplo, Claude Code utiliza ~/.claude/skills/ de forma global o .claude/skills/ por proyecto. Una vez instalada, el agente lee la skill sin necesidad de indicaciones adicionales. No se requiere servidor MCP ni llamadas de red al momento de la generación.
El ecosistema abierto de agent skills (mantenido por Vercel Labs) define la especificación y ofrece una CLI (npx skills) para instalar, actualizar y gestionar skills. Actualmente soporta más de 50 agentes, incluyendo Claude Code, Codex, Cursor, Windsurf, OpenCode, Gemini CLI y GitHub Copilot.
Instalación de la Skill de Fish Audio
Fish Audio publica una Agent Skill lista para usar que cubre toda la API REST y WebSocket: autenticación, cada endpoint en el esquema OpenAPI, reglas de codificación MessagePack vs JSON vs multipart, configuración de diálogos con múltiples hablantes y el protocolo de streaming por WebSocket.
npx skills add https://docs.fish.audio --skill fish-audio-api
La skill se instala en el directorio local de tu agente. Una vez instalada, intenta preguntar a tu agente de codificación:
- "Llama a la API de Fish Audio TTS con curl"
- "Transmite TTS por WebSocket en Python"
- "Configura un diálogo con múltiples hablantes con etiquetas de emoción como [happy] y [sad]"
- "Genera voz con S2 usando un estilo [whispering]"
Para ver la lista completa de etiquetas de emoción soportadas y controles de entrega avanzados, consulta la Guía de control detallado de Fish Audio S2 →
¿Construyendo un proyecto con múltiples personajes? Mira Texto a voz con múltiples voces → para una guía de configuración práctica.
La skill proporciona las convenciones; el agente las sigue sin necesidad de consultar la documentación primero.
Para instalarla en un agente específico:
# Solo para Claude Code
npx skills add https://docs.fish.audio --skill fish-audio-api -a claude-code
# Solo para Codex
npx skills add https://docs.fish.audio --skill fish-audio-api -a codex
# Para todos los agentes detectados a la vez
npx skills add https://docs.fish.audio --skill fish-audio-api --all
Ejecuta npx skills --help para ver la lista completa de flags de agentes soportados.
MCP vs. Skills: ¿Cuál deberías usar?
Ambas herramientas hacen que tu agente de codificación sea más preciso con Fish Audio. Están optimizadas para diferentes escenarios.
| MCP | Agent Skills | |
|---|---|---|
| Actualización de la documentación | Siempre al día (recuperación en vivo) | Fija en el momento de la instalación (ejecuta npx skills update para refrescar) |
| Requiere red | Sí | No — funciona totalmente sin conexión tras la instalación |
| Ideal para | Preguntas abiertas, explorar nuevas funciones, depurar casos específicos | Tareas repetitivas, generación de código estandarizado, entornos de CI/CD |
| Configuración | Un comando mcp add | Un comando npx skills add |
| Funciona en | Claude Code, Cursor, Windsurf | Más de 50 agentes incluyendo Claude Code, Codex, Cursor, Windsurf, Gemini CLI |
La regla práctica: usa MCP para la búsqueda de documentación en vivo y consultas exploratorias. Usa skills para una generación de código confiable y sin conexión en patrones conocidos.
En la mayoría de las configuraciones de producción, tiene sentido usar ambos. La skill maneja los patrones estándar (autenticación, llamadas básicas de TTS, configuración de WebSocket) sin un viaje de ida y vuelta por la red. MCP maneja las preguntas que no anticipaste: nuevos parámetros de modelos, límites de velocidad actualizados, casos extremos en el protocolo de streaming.
Por qué la documentación tradicional se queda corta para los agentes de IA
La documentación de API tradicional está optimizada para la navegación humana. Los agentes de codificación por IA necesitan algo diferente: índices estructurados, Markdown con poco ruido y rutas de recuperación en vivo que reduzcan las generaciones obsoletas y el desperdicio de tokens de contexto.
La mayoría de la documentación de API fue diseñada para un flujo de trabajo específico: un desarrollador abre un navegador, busca el endpoint que necesita, lee la página y copia un fragmento. Ese flujo de trabajo ha funcionado bien durante años.
La suposición subyacente — que el lector es un humano con un navegador — merece ser examinada ahora. Los agentes de codificación de IA no usan navegadores. Recuperan contenido en bruto, lo analizan y generan código a partir de lo que obtienen. La infraestructura que hace que los documentos sean legibles para los humanos (menús de navegación, barras de búsqueda, HTML renderizado, contenido multimedia incrustado) añade fricción para los agentes en lugar de eliminarla.
Algunos patrones específicos causan la mayoría de los problemas:
HTML como formato principal. Los agentes pueden analizar HTML técnicamente, pero contiene una gran cantidad de marcado estructural que no es relevante para la tarea: etiquetas de diseño, scripts, elementos de navegación. Una página que tiene 10,000 caracteres de HTML podría contener solo 2,000 caracteres de documentación real. Esa brecha tiene un costo real cuando las ventanas de contexto son finitas.
Falta de un punto de entrada claro. Un sitio de documentación con 200 páginas no le da ninguna señal a un agente sobre por dónde empezar. Sin un índice estructurado, los agentes extraen demasiado contenido (desperdiciando tokens) o extraen las páginas equivocadas (generando código incorrecto).
Contenido que no envejece bien. Los IDs de los modelos, las rutas de los endpoints y los nombres de los parámetros cambian. La documentación que no tiene una señal clara de versión o de depreciación hace que los agentes generen código basado en especificaciones que podrían no ser ya precisas.
Nada de esto es una crítica a cómo se ha construido la documentación; se construyó para la audiencia adecuada en su momento. La pregunta práctica ahora es: dado que los agentes de codificación por IA se están convirtiendo en una parte significativa de cómo los desarrolladores interactúan con las APIs, ¿tu documentación para agentes de IA funciona para ambas audiencias?
llms.txt, el servidor MCP y las Agent Skills de Fish Audio son nuestra respuesta a esa pregunta: tres capas que hacen que la misma documentación funcione tanto como documentación de API legible por humanos como documentación legible por IA para LLMs y agentes de codificación por igual.
La visión completa: Cómo trabajan las tres juntas
Así es como se ve la configuración completa de tres capas en un flujo de trabajo real:
-
El agente abre tu proyecto y encuentra una tarea de Fish Audio. Primero recupera
llms.txt, obteniendo un mapa estructurado de toda la documentación disponible optimizada para LLM antes de extraer páginas individuales. Costo de tokens: mínimo. Tiempo de orientación: una sola recuperación. -
El agente genera código. Si la skill fish-audio-api está instalada, utiliza las convenciones de la skill para la autenticación, el formato de codificación y el protocolo de streaming, sin necesidad de recuperar documentación para los patrones estándar. El resultado coincide con la especificación de la API desde la primera generación.
-
El agente necesita verificar algo específico: un ID de modelo actual, un límite de velocidad, una sintaxis de etiqueta de emoción para S2. Consulta al servidor MCP y obtiene la respuesta directamente de la documentación publicada, reduciendo el riesgo de generaciones obsoletas o incorrectas.
El resultado es un agente de codificación que genera integraciones precisas de Fish Audio al primer intento, con menos correcciones de ida y vuelta y sin adivinar si un endpoint o ID de modelo ha cambiado desde su entrenamiento.
Implementa funciones de voz más rápido con documentación nativa para agentes. Instala la skill de Fish Audio una vez y reutiliza patrones de TTS seguros para producción en cada proyecto. Conecta el servidor MCP y deja que tu agente de codificación lea la documentación por sí mismo.
Configurar MCP → · Instalar la Skill → · Comenzar en el Panel de Desarrolladores →
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
Leer más de Sabrina Shu
