Oferta por tempo limitado- 50% DE DESCONTO ANUALResgatar
29 de mai. de 2026GUIA

Fish Audio para Agentes de Codificação de IA: llms.txt, MCP e Skills

Fish Audio para Agentes de Codificação de IA: llms.txt, MCP e Skills

A Fish Audio agora disponibiliza três interfaces nativas criadas para agentes de IA — llms.txt para navegação, um servidor Docs MCP para consulta de API em tempo real e Claude Code skills instaláveis para geração de código offline-first. Aqui está o que cada uma faz, por que são importantes e como configurá-las em menos de cinco minutos.

Maio de 2026 | O ferramental para agentes da Fish Audio está agora disponível em llms.txt, MCP e Skills


A maior parte da documentação para desenvolvedores é escrita para humanos. Ela assume que você abre um navegador, lê um guia, copia um trecho e volta para o seu editor. Esse fluxo de trabalho funciona bem quando você está trabalhando sozinho. Ele deixa de funcionar no momento em que seu agente de codificação é quem está realizando a leitura.

Agentes de codificação de IA — Claude Code, Cursor, Codex, Windsurf e uma lista crescente de outros — precisam de documentação amigável para LLM em uma forma fundamentalmente diferente. Eles não navegam. Eles buscam. Eles não leem títulos superficialmente; eles analisam estruturas. E quando uma janela de contexto se enche, a documentação não estruturada torna-se ruído que expulsa o código.

Vimos isso em primeira mão. Desenvolvedores integrando a Fish Audio em pipelines de LLM continuavam encontrando a mesma classe de erros: agentes de codificação gerando código de autenticação para o endpoint errado, extraindo IDs de modelos obsoletos de dados de treinamento ou construindo payloads de WebSocket contra um esquema desatualizado. O problema não era a API — era que os agentes não tinham uma maneira confiável de acessar documentação estruturada e atual no momento da geração.

A Fish Audio agora oferece três interfaces projetadas especificamente para resolver isso: llms.txt para navegação de agentes de IA, um servidor Docs MCP para consulta de documentação em tempo real e Agent Skills para geração de código offline-first. A Fish Audio disponibiliza os três como recursos de primeira classe para desenvolvedores — cada um utilizável de forma independente, e todos os três projetados para funcionar juntos como uma camada de documentação nativa para agentes em qualquer fluxo de trabalho de codificação.

Já utiliza a Fish Audio? Busque https://docs.fish.audio/llms.txt e aponte seu agente para ele agora — sem necessidade de configuração adicional. Comece agora no Painel do Desenvolvedor →


llms.txt: Como Agentes de IA Navegam em Seus Documentos

O Que É llms.txt?

Comparação mostrando como o llms.txt fornece aos agentes de IA um ponto de entrada estruturado versus rastrear um site de docs não estruturado

llms.txt é um padrão aberto emergente que fornece aos agentes de IA um índice limpo e estruturado do conteúdo mais importante de um site. Definido em llmstxt.org, o formato é um arquivo Markdown colocado na raiz de um domínio — uma lista selecionada de links com descrições curtas, organizadas em categorias significativas.

Pense nele como um robots.txt para LLMs — exceto que, em vez de dizer aos agentes o que evitar, o llms.txt diz exatamente por onde começar. A Fish Audio usa llms.txt para dar aos agentes de codificação um ponto de entrada estruturado e de baixo ruído em sua documentação de API.

A maioria dos sites de documentação possui centenas de páginas. Quando um agente de codificação carrega um site inteiro de docs sem orientação, ele desperdiça tokens da janela de contexto com conteúdo que não é relevante para a tarefa — entradas de changelog, endpoints obsoletos, textos de marketing. Um llms.txt bem elaborado filtra isso para um conjunto selecionado de pontos de entrada de alto sinal, o que significa respostas mais rápidas, menores custos de tokens e geração de código mais precisa.

O padrão também define o llms-full.txt — uma variante mais ampla que inclui o conteúdo completo das páginas para agentes que precisam de um contexto mais profundo. Ambos são Markdown simples, que qualquer LLM pode analisar sem qualquer pré-processamento.

O llms.txt e llms-full.txt da Fish Audio

A Fish Audio publica duas versões, ambas disponíveis sem autenticação:

docs.fish.audio/llms.txt — um índice selecionado e de baixo ruído organizado em seis categorias: Comece Aqui, Especificações da API, API REST Principal, SDKs, Guias de Produto e Documentos Operacionais. O arquivo abre com um link de Início Rápido do Agente e um caminho direto para o guia de Agentes de Codificação de IA, para que qualquer agente possa se orientar em uma única busca. Cada link aponta para um arquivo .md — não HTML — para que os agentes analisem o conteúdo diretamente sem precisar remover marcações.

docs.fish.audio/llms-full.txt — uma versão mais ampla que inclui a referência completa de emoções, todas as páginas de SDK, cada endpoint REST e WebSocket, e guias estendidos para clonagem de voz, streaming em tempo real e controle de fonemas em inglês, chinês e japonês.

Aqui está um exemplo simplificado de llms.txt mostrando a estrutura que a Fish Audio utiliza:

# Fish Audio

> Índice de documentação canônica para APIs, SDKs, modelos,
> clonagem de voz, streaming em tempo real e auto-hospedagem da Fish Audio.

## Comece Aqui
- [Agent Quickstart]: Ponto de entrada de ruído mínimo para agentes de IA
- [Quick Start]: Gere sua primeira voz de IA em menos de 5 minutos
- [AI Coding Agents]: Conecte assistentes de codificação via MCP

## API REST Principal
- [Text to Speech Endpoint]: Converta texto em fala
- [Speech to Text Endpoint]: Transcreva áudio em texto
- [WebSocket TTS Streaming]: Streaming em tempo real via WebSocket
...

O padrão llms.txt tem visto uma adoção rápida em ferramentas de desenvolvedor e infraestrutura de IA — com empresas como Anthropic Claude, Perplexity, Cloudflare, Vercel, Cursor, ElevenLabs e Coinbase já publicando suas próprias implementações. A Fish Audio disponibiliza uma implementação totalmente estruturada em llms.txt, MCP e habilidades de agente instaláveis — cada camada utilizável de forma independente e projetada para funcionar em conjunto. A seção "Comece Aqui" foi projetada especificamente para dar aos agentes de codificação uma árvore de decisão, não apenas uma lista de links.

Como um Agente o Utiliza na Prática

Quando você pede a um agente de codificação para "implementar o TTS da Fish Audio em Python", um agente bem configurado busca o llms.txt primeiro, identifica as páginas relevantes (SDK Python, Endpoint TTS, Autenticação), extrai essas páginas como Markdown e gera o código a partir da documentação atual — não de dados de treinamento que podem estar defasados há meses.

Isso importa mais do que parece. Esquemas de API mudam. IDs de modelos tornam-se obsoletos. A sintaxe de tags de emoção evolui entre as gerações de modelos. Sem uma busca de documentação ao vivo, um agente está gerando código contra uma captura instantânea da API que pode não funcionar mais.

A abordagem de dois arquivos oferece aos agentes um caminho de escalonamento natural: comece com o llms.txt para um índice focado de poucos tokens; escale para o llms-full.txt quando uma tarefa exigir um contexto mais profundo, como a referência completa de emoções ou comportamentos de streaming em casos específicos.

Já está construindo com a Fish Audio? Aponte seu agente de codificação para docs.fish.audio/llms.txt e pare de gerar chamadas de API desatualizadas. Comece no Painel do Desenvolvedor →


Docs MCP: Consulta de API em Tempo Real para Agentes de Codificação

O Que É MCP?

Diagrama mostrando como o servidor MCP da Fish Audio conecta um agente de codificação à documentação em tempo real

MCP (Model Context Protocol) é um protocolo aberto que permite que agentes de codificação de IA como o Claude Code e o Cursor busquem documentação ao vivo e dados externos durante a geração de código — sem sair do editor.

A Fish Audio utiliza o MCP para expor sua documentação completa de API como uma camada de recuperação em tempo real dentro dos agentes de codificação. Quando você conecta o servidor MCP da Fish Audio, seu agente pode responder a perguntas como "quais tags de emoção a Fish Audio suporta?" ou "qual é o limite de taxa no endpoint de TTS?" buscando a resposta atual na documentação publicada, em vez de depender de dados de treinamento desatualizados.

Configurando o Servidor MCP da Fish Audio

O servidor Docs MCP da Fish Audio está disponível em https://docs.fish.audio/mcp. A configuração leva apenas um comando.

Configuração do MCP: Tutorial Passo a Passo

O passo a passo a seguir utiliza o Claude Code como exemplo. O servidor MCP da Fish Audio também suporta Cursor e Windsurf — veja os links de configuração específicos para cada editor abaixo.

Passo 1 — Execute o comando de instalação

Abra o terminal no diretório do seu projeto e execute:

claude mcp add --transport http fish-audio --scope project https://docs.fish.audio/mcp

Isso cria um arquivo de configuração .mcp.json na raiz do seu projeto. A flag --scope project significa que o servidor está disponível para todos que trabalharem diretamente neste projeto.

Passo 2 — Verifique a conexão

claude mcp list

Você deve ver fish-audio na lista de servidores configurados. Se não aparecer, verifique se você está executando o comando dentro de um diretório de projeto.

Passo 3 — Teste

Pergunte diretamente ao Claude Code: "Quais modelos da Fish Audio estão disponíveis atualmente?" ou "Como faço a autenticação com a API da Fish Audio?" Se o servidor MCP estiver conectado, o Claude Code buscará a resposta na documentação em tempo real em vez de depender dos dados de treinamento.

Problemas comuns:

Se o servidor não aparecer em claude mcp list, confirme se você tem a versão mais recente do Claude Code instalada. Se preferir que o servidor esteja disponível em todos os seus projetos, substitua --scope project por --scope user.

Novo na API da Fish Audio? Comece com a Introdução à API → para entender a autenticação, endpoints e formatos de resposta antes de conectar o servidor MCP.

Claude Code (referência rápida):

claude mcp add --transport http fish-audio --scope project https://docs.fish.audio/mcp

Isso cria um arquivo .mcp.json na raiz do seu projeto. Verifique a conexão:

claude mcp list
# Você deve ver: fish-audio

Cursor: Configure via paleta de comandos. Veja o guia de configuração do Cursor →

Windsurf: Configure via File > Preferences > Windsurf Settings. Veja o guia de configuração do Windsurf →

Uma vez conectado, seu agente de codificação tem acesso em tempo real a:

  • Referência completa da API REST com todos os parâmetros e esquemas de resposta
  • Guias de SDK para Python e JavaScript e exemplos funcionais
  • Melhores práticas para clonagem de voz e streaming em tempo real
  • Comparação de modelos e tabelas de preços e limites de taxa atuais
  • Guias de solução de problemas para problemas comuns de integração

O Que Você Pode Perguntar Uma Vez Conectado

O servidor MCP da Fish Audio foi projetado para consultas em linguagem natural dentro do seu editor. Alguns exemplos:

ConsultaO que o agente busca
"Como faço a autenticação com a Fish Audio?"Guia de autenticação dos docs dos SDKs Python ou JS
"Quais tags de emoção estão disponíveis?"Referência completa de emoções — todas as mais de 64 tags em categorias Básica, Avançada, Tom e Efeito de Áudio
"Mostre-me código Python para streaming via WebSocket"Guia de TTS via WebSocket com o protocolo de streaming atual
"Qual é a diferença entre o S1 e o S2?"Visão geral dos modelos com comparação de capacidades — veja também: Fish Audio Abre o Código do S2 →
"Como faço para clonar uma voz?"Guia de clonagem de voz com requisitos de áudio de referência

Como o servidor MCP utiliza a recuperação de API em tempo real a partir da documentação publicada, as respostas refletem a referência de API mais recente disponível. Quando a Fish Audio lança um novo modelo ou atualiza um endpoint, seu agente o verá na próxima consulta.

Segurança: O servidor MCP fornece acesso de apenas leitura à documentação pública. Nenhuma chave de API é transmitida através da conexão. Todas as solicitações usam HTTPS. Nenhuma consulta ou dado de uso é armazenado.

Ainda não está usando a Fish Audio? Comece gratuitamente → — adicione o servidor MCP em menos de 30 segundos e gere integrações de TTS funcionais diretamente da documentação em tempo real.


Agent Skills: Instruções de API Offline-First para Mais de 50 Agentes de Codificação

O Que São Agent Skills?

Diagrama mostrando como um arquivo SKILL.md da Fish Audio é instalado e usado pelo Claude Code, Codex e Cursor

Agent Skills são conjuntos de instruções reutilizáveis para agentes de codificação — arquivos SKILL.md estruturados que dizem a um agente exatamente como lidar com uma tarefa específica, sem exigir a busca de documentação ao vivo no momento da geração.

Cada skill contém um nome, uma descrição e instruções passo a passo que o agente segue automaticamente quando uma tarefa correspondente surge.

As Skills são instaladas no diretório local de skills de um agente. O caminho exato varia por agente — por exemplo, o Claude Code usa ~/.claude/skills/ globalmente ou .claude/skills/ por projeto. Uma vez instalada, o agente lê a skill sem necessidade de prompts adicionais. Nenhum servidor MCP é necessário. Nenhuma chamada de rede no momento da geração.

O ecossistema aberto de skills para agentes (mantido pela Vercel Labs) define a especificação e disponibiliza uma CLI — npx skills — para instalar, atualizar e gerenciar skills. Atualmente, ele suporta mais de 50 agentes, incluindo Claude Code, Codex, Cursor, Windsurf, OpenCode, Gemini CLI e GitHub Copilot.

Instalando a Skill da Fish Audio

A Fish Audio publica uma Agent Skill pronta que cobre as APIs REST e WebSocket completas: autenticação, cada endpoint no esquema OpenAPI, regras de codificação MessagePack vs JSON vs multipart, configuração de diálogo multi-falante e o protocolo de streaming WebSocket.

npx skills add https://docs.fish.audio --skill fish-audio-api

A skill é instalada no diretório local do seu agente. Uma vez instalada, tente perguntar ao seu agente de codificação:

  • "Chame a API de TTS da Fish Audio com curl"
  • "Faça streaming de TTS sobre WebSocket em Python"
  • "Configure um diálogo multi-falante com tags de emoção como [happy] e [sad]"
  • "Gere fala com o S2 usando um estilo [whispering]"

Para a lista completa de tags de emoção suportadas e controles avançados, consulte o Guia de Controle Refinado do Fish Audio S2 →

Construindo um projeto com vários personagens? Veja Text to Speech com Múltiplas Vozes → para um guia prático de configuração.

A skill fornece as convenções — o agente as segue sem buscar a documentação primeiro.

Para instalar para um agente específico:

# Apenas Claude Code
npx skills add https://docs.fish.audio --skill fish-audio-api -a claude-code

# Apenas Codex
npx skills add https://docs.fish.audio --skill fish-audio-api -a codex

# Todos os agentes detectados de uma vez
npx skills add https://docs.fish.audio --skill fish-audio-api --all

Execute npx skills --help para ver a lista completa de flags de agentes suportados.

MCP vs. Skills: Qual Você Deve Usar?

Ambas as ferramentas tornam seu agente de codificação mais preciso com a Fish Audio. Elas são otimizadas para cenários diferentes.

MCPAgent Skills
Atualização da documentaçãoSempre atual — busca ao vivoFixa no momento da instalação — execute npx skills update para atualizar
Rede necessáriaSimNão — funciona totalmente offline após a instalação
Melhor paraPerguntas abertas, explorar novos recursos, depurar casos específicosTarefas repetíveis, geração de código padronizada, ambientes de CI/CD
ConfiguraçãoUm comando mcp addUm comando npx skills add
Funciona emClaude Code, Cursor, WindsurfMais de 50 agentes incluindo Claude Code, Codex, Cursor, Windsurf, Gemini CLI

A regra prática: use MCP para busca de documentação ao vivo e consultas exploratórias. Use skills para geração de código confiável e offline-first em padrões conhecidos.

Na maioria das configurações de produção, usar ambos faz sentido. A skill lida com padrões padrão — autenticação, chamadas básicas de TTS, configuração de WebSocket — sem um round-trip de rede. O MCP lida com as perguntas que você não previu: novos parâmetros de modelo, limites de taxa atualizados, casos específicos no protocolo de streaming.


Por Que as Docs Tradicionais Falham com Agentes de IA

Comparação entre documentação HTML tradicional versus docs em Markdown prontos para agentes de codificação de IA

A documentação de API tradicional é otimizada para navegação humana. Agentes de codificação de IA precisam de algo diferente: índices estruturados, Markdown de baixo ruído e caminhos de recuperação ao vivo que reduzam gerações obsoletas e tokens de contexto desperdiçados.

A maioria das documentações de API foi projetada para um fluxo de trabalho específico: um desenvolvedor abre um navegador, procura o endpoint de que precisa, lê a página e copia um trecho. Esse fluxo funcionou bem por anos.

A premissa por trás disso — que o leitor é um humano com um navegador — agora vale a pena ser examinada. Agentes de codificação de IA não usam navegadores. Eles buscam conteúdo bruto, o analisam e geram código a partir do que recuperam. A infraestrutura que torna os docs legíveis para humanos — menus de navegação, barras de pesquisa, HTML renderizado, mídia incorporada — adiciona fricção para os agentes em vez de removê-la.

Alguns padrões específicos causam a maioria dos problemas:

HTML como formato principal. Agentes podem tecnicamente analisar HTML, mas ele contém uma grande quantidade de marcação estrutural que não é relevante para a tarefa — tags de layout, scripts, elementos de navegação. Uma página que tem 10.000 caracteres de HTML pode conter apenas 2.000 caracteres de documentação real. Essa lacuna tem um custo real quando as janelas de contexto são finitas.

Sem ponto de entrada claro. Um site de documentação com 200 páginas não dá sinal ao agente sobre por onde começar. Sem um índice estruturado, os agentes ou puxam conteúdo demais (desperdiçando tokens) ou puxam as páginas erradas (gerando código incorreto).

Conteúdo que não envelhece bem. IDs de modelos, caminhos de endpoints e nomes de parâmetros mudam. A documentação que não tem um sinal claro de versão ou descontinuação faz com que os agentes gerem código contra especificações que podem não ser mais precisas.

Nada disso é uma crítica a como a documentação foi construída — ela foi feita para o público certo na época. A questão prática agora é: à medida que os agentes de codificação de IA se tornam uma parte significativa de como os desenvolvedores interagem com as APIs, sua documentação de agente de IA funciona para ambos os públicos?

O llms.txt, o servidor MCP e as Agent Skills da Fish Audio são nossa resposta a essa pergunta — três camadas que fazem a mesma documentação funcionar tanto como docs de API legíveis por humanos quanto como docs legíveis por IA para LLMs e agentes de codificação.


O Cenário Completo: Como os Três Funcionam Juntos

Diagrama mostrando como o llms.txt, o servidor MCP e as Agent Skills da Fish Audio funcionam juntos para agentes de codificação de IA

Aqui está como a configuração completa de três camadas se parece em um fluxo de trabalho real:

  1. O agente abre seu projeto e encontra uma tarefa da Fish Audio. Ele busca o llms.txt primeiro — obtendo um mapa estruturado de toda a documentação amigável para LLM disponível antes de puxar páginas individuais. Custo de token: mínimo. Tempo de orientação: uma busca.

  2. O agente gera o código. Se a skill fish-audio-api estiver instalada, ele recorre às convenções da skill para autenticação, formato de codificação e protocolo de streaming — sem necessidade de busca de documentação para padrões comuns. A saída corresponde à especificação da API desde a primeira geração.

  3. O agente precisa verificar algo específico — um ID de modelo atual, um limite de taxa, uma sintaxe de tag de emoção para o S2. Ele consulta o servidor MCP e obtém a resposta diretamente da documentação publicada — reduzindo o risco de gerações obsoletas ou incorretas.

O resultado é um agente de codificação que gera integrações precisas da Fish Audio na primeira tentativa, com menos correções de ida e volta e sem adivinhações sobre se um endpoint ou ID de modelo mudou desde o treinamento.

Lance recursos de voz mais rápido com docs nativos para agentes. Instale a skill da Fish Audio uma vez e reutilize padrões de TTS seguros para produção em cada projeto. Conecte o servidor MCP e deixe seu agente de codificação ler os docs por conta própria.

Configurar MCP → · Instalar a Skill → · Começar no Painel do Desenvolvedor →

Sabrina Shu

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Leia mais de Sabrina Shu

Crie vozes que parecem reais

Comece a gerar áudio da mais alta qualidade hoje.

Já tem uma conta? Entrar