AI 코딩 에이전트를 위한 Fish Audio: llms.txt, MCP 및 Skills
Fish Audio가 AI 에이전트를 위해 구축된 세 가지 네이티브 인터페이스를 출시합니다. 탐색을 위한 llms.txt, 실시간 API 조회를 위한 Docs MCP 서버, 그리고 오프라인 우선 코드 생성을 위한 설치형 Claude Code skills가 그 주인공입니다. 각 인터페이스의 기능과 중요성, 그리고 5분 이내에 설정하는 방법을 확인해 보세요.
2026년 5월 | Fish Audio 에이전트 도구가 이제 llms.txt, MCP 및 Skills에서 활성화되었습니다.
대부분의 개발자 문서는 인간을 위해 작성되었습니다. 사용자가 브라우저를 열고 가이드를 읽고 스니펫을 복사한 다음 에디터로 돌아가는 것을 가정합니다. 혼자 작업할 때는 이러한 워크플로우가 괜찮지만, 코딩 에이전트가 문서를 읽어야 하는 순간 이 프로세스는 무너집니다.
Claude Code, Cursor, Codex, Windsurf 등 늘어나는 AI 코딩 에이전트들에게는 근본적으로 다른 형태의 LLM 친화적인 문서가 필요합니다. 이들은 브라우징을 하지 않고 데이터를 '페치(fetch)'합니다. 헤딩을 훑어보는 대신 구조를 파싱합니다. 또한 컨텍스트 윈도우가 가득 차면, 구조화되지 않은 문서는 코드를 밀어내는 노이즈가 됩니다.
우리는 이를 직접 목격했습니다. Fish Audio를 LLM 파이프라인에 통합하는 개발자들은 동일한 유형의 오류를 반복해서 겪고 있었습니다. 코딩 에이전트가 잘못된 엔드포인트에 대한 인증 코드를 생성하거나, 학습 데이터에서 오래된 모델 ID를 가져오거나, 구버전 스키마를 기반으로 WebSocket 페이로드를 구성하는 문제였습니다. 문제는 API 자체가 아니라, 에이전트가 생성 시점에 최신 구조화된 문서에 액세스할 수 있는 신뢰할 수 있는 방법이 없었다는 점입니다.
Fish Audio는 이를 해결하기 위해 특수 제작된 세 가지 인터페이스를 출시합니다. AI 에이전트 탐색을 위한 llms.txt, 실시간 문서 조회를 위한 Docs MCP 서버, 그리고 오프라인 우선 코드 생성을 위한 Agent Skills입니다. Fish Audio는 이 세 가지를 일급 개발자 기능으로 제공하며, 각각 독립적으로 사용 가능할 뿐만 아니라 모든 코딩 에이전트 워크플로우를 위한 에이전트 네이티브 문서 계층으로 함께 작동하도록 설계되었습니다.
이미 Fish Audio를 사용 중이신가요? 지금 바로 https://docs.fish.audio/llms.txt를 가져와서 에이전트에게 지정하세요. 추가 설정은 필요하지 않습니다. 개발자 패널에서 시작하기 →
llms.txt: AI 에이전트가 문서를 탐색하는 방법
llms.txt란 무엇인가요?
llms.txt는 웹사이트의 가장 중요한 콘텐츠에 대한 깨끗하고 구조화된 인덱스를 AI 에이전트에게 제공하는 신흥 오픈 표준입니다. llmstxt.org에서 정의된 이 형식은 도메인의 루트에 배치되는 마크다운 파일로, 의미 있는 카테고리로 정리된 짧은 설명과 링크 목록입니다.
이를 LLM을 위한 robots.txt라고 생각하면 쉽습니다. 다만 에이전트에게 피해야 할 곳을 알려주는 대신, llms.txt는 정확히 어디서 시작해야 할지를 알려줍니다. Fish Audio는 llms.txt를 사용하여 코딩 에이전트에게 API 문서에 대한 구조화되고 노이즈가 적은 진입점을 제공합니다.
대부분의 문서 웹사이트는 수백 개의 페이지로 구성됩니다. 코딩 에이전트가 전체 문서 사이트를 무작위로 가져오면 변경 로그, 더 이상 사용되지 않는 엔드포인트, 마케팅 문구 등 작업과 관련 없는 콘텐츠에 컨텍스트 윈도우 토큰을 낭비하게 됩니다. 잘 만들어진 llms.txt는 이를 선별된 고신호 진입점으로 필터링하여 응답 속도를 높이고 토큰 비용을 낮추며 더 정확한 코드를 생성할 수 있게 합니다.
이 표준은 또한 llms-full.txt를 정의합니다. 이는 더 깊은 컨텍스트가 필요한 에이전트를 위해 더 완전한 페이지 콘텐츠를 포함하는 확장 버전입니다. 두 버전 모두 일반 마크다운이므로 모든 LLM이 전처리 없이 파싱할 수 있습니다.
Fish Audio의 llms.txt 및 llms-full.txt
Fish Audio는 인증 없이 사용할 수 있는 두 가지 버전을 게시합니다.
docs.fish.audio/llms.txt — 시작하기, API 사양, 핵심 REST API, SDK, 제품 가이드, 운영 문서의 6개 카테고리로 정리된 선별된 인덱스입니다. 이 파일은 에이전트 퀵스타트 링크와 AI 코딩 에이전트 가이드로 바로 연결되는 경로로 시작하므로, 모든 에이전트가 한 번의 페치로 방향을 잡을 수 있습니다. 모든 링크는 HTML이 아닌 .md 파일을 가리키므로 에이전트가 마크업 제거 없이 콘텐츠를 직접 파싱합니다.
docs.fish.audio/llms-full.txt — 전체 감정 참조, 모든 SDK 페이지, 모든 REST 및 WebSocket 엔드포인트, 영어, 중국어, 일본어에 걸친 보이스 클로닝, 실시간 스트리밍, 음소 제어를 위한 확장 가이드를 포함하는 광범위한 버전입니다.
다음은 Fish Audio가 사용하는 구조를 보여주는 간략한 llms.txt 예시입니다.
# Fish Audio
> Fish Audio API, SDK, 모델,
> 보이스 클로닝, 실시간 스트리밍 및 셀프 호스팅을 위한 표준 문서 인덱스입니다.
## 시작하기
- [Agent Quickstart]: AI 에이전트를 위한 최소 노이즈 진입점
- [Quick Start]: 5분 이내에 첫 AI 음성 생성하기
- [AI Coding Agents]: MCP를 통해 코딩 어시스턴트 연결하기
## Core REST API
- [Text to Speech Endpoint]: 텍스트를 음성으로 변환
- [Speech to Text Endpoint]: 오디오를 텍스트로 전사
- [WebSocket TTS Streaming]: WebSocket을 통한 실시간 스트리밍
...
llms.txt 표준은 Anthropic Claude, Perplexity, Cloudflare, Vercel, Cursor, ElevenLabs, Coinbase 등 이미 자체 구현체를 게시하고 있는 개발자 도구 및 AI 인프라 기업들 사이에서 빠르게 채택되고 있습니다. Fish Audio는 llms.txt, MCP 및 설치 가능한 에이전트 skills 전반에 걸쳐 완전히 구조화된 구현을 제공합니다. 각 계층은 독립적으로 사용 가능하며 함께 작동하도록 설계되었습니다. "시작하기" 섹션은 단순히 링크 목록이 아니라 코딩 에이전트에게 의사 결정 트리를 제공하도록 특별히 설계되었습니다.
에이전트가 실제로 이를 사용하는 방법
코딩 에이전트에게 "Python으로 Fish Audio TTS를 구현해 줘"라고 요청하면, 잘 구성된 에이전트는 먼저 llms.txt를 페치하여 관련 페이지(Python SDK, TTS 엔드포인트, 인증)를 식별하고, 해당 페이지를 마크다운으로 가져와 최신 문서를 기반으로 코드를 생성합니다. 이는 수개월 전의 훈련 데이터에 의존하지 않음을 의미합니다.
이것은 생각보다 중요합니다. API 스키마는 변경되고, 모델 ID는 폐기되며, 감정 태그 구문은 모델 세대에 따라 진화합니다. 실시간 문서 페치 없이는 에이전트가 더 이상 작동하지 않을 수 있는 API 스냅샷을 기반으로 코드를 생성하게 됩니다.
두 가지 파일 방식은 에이전트에게 자연스러운 단계별 접근 방식을 제공합니다. 집중적이고 토큰 사용량이 적은 인덱스를 위해 llms.txt로 시작하고, 전체 감정 참조나 엣지 케이스 스트리밍 동작과 같이 더 깊은 컨텍스트가 필요한 경우 llms-full.txt로 확장합니다.
이미 Fish Audio로 구축 중이신가요? 코딩 에이전트에게 docs.fish.audio/llms.txt를 가리키게 하여 오래된 API 호출 생성을 중단하세요. 개발자 패널에서 시작하기 →
Docs MCP: 코딩 에이전트를 위한 실시간 API 조회
MCP란 무엇인가요?
MCP (Model Context Protocol)는 Claude Code 및 Cursor와 같은 AI 코딩 에이전트가 에디터를 떠나지 않고도 코드 생성 중에 실시간 문서 및 외부 데이터를 가져올 수 있도록 하는 오픈 프로토콜입니다.
Fish Audio는 MCP를 사용하여 전체 API 문서를 코딩 에이전트 내부의 실시간 검색 계층으로 노출합니다. Fish Audio MCP 서버를 연결하면, 에이전트는 "Fish Audio가 지원하는 감정 태그는 무엇인가요?" 또는 "TTS 엔드포인트의 속도 제한은 어떻게 되나요?"와 같은 질문에 대해 수개월 전의 훈련 데이터가 아닌 최신 공개 문서를 페치하여 답변할 수 있습니다.
Fish Audio MCP 서버 설정하기
Fish Audio Docs MCP 서버는 https://docs.fish.audio/mcp에서 사용할 수 있습니다. 설정은 명령어 하나로 끝납니다.
MCP 설정: 단계별 튜토리얼
다음 튜토리얼은 Claude Code를 예로 사용합니다. Fish Audio의 MCP 서버는 Cursor 및 Windsurf도 지원합니다. 아래의 에디터별 설정 링크를 참조하세요.
1단계 — 설치 명령어 실행
프로젝트 디렉토리에서 터미널을 열고 다음을 실행하세요.
claude mcp add --transport http fish-audio --scope project https://docs.fish.audio/mcp
이 명령어는 프로젝트 루트에 .mcp.json 설정 파일을 생성합니다. --scope project 플래그는 이 프로젝트에서 작업하는 모든 사람이 서버를 직접 사용할 수 있음을 의미합니다.
2단계 — 연결 확인
claude mcp list
구성된 서버 목록에 fish-audio가 표시되어야 합니다. 표시되지 않으면 프로젝트 디렉토리 내부에서 명령어를 실행 중인지 확인하세요.
3단계 — 테스트
Claude Code에게 직접 물어보세요: "현재 사용 가능한 Fish Audio 모델은 무엇인가요?" 또는 "Fish Audio API로 어떻게 인증하나요?" MCP 서버가 연결되어 있으면 Claude Code는 훈련 데이터에 의존하는 대신 실시간 문서에서 답변을 가져옵니다.
일반적인 문제:
claude mcp list에 서버가 나타나지 않으면 최신 버전의 Claude Code가 설치되어 있는지 확인하세요. 단일 프로젝트가 아닌 모든 프로젝트에서 서버를 사용하려면 --scope project를 --scope user로 바꾸세요.
Fish Audio API가 처음이신가요? MCP 서버를 연결하기 전에 API 소개 →에서 인증, 엔드포인트 및 응답 형식에 대해 먼저 알아보세요.
Claude Code (빠른 참조):
claude mcp add --transport http fish-audio --scope project https://docs.fish.audio/mcp
이것은 프로젝트 루트에 .mcp.json 파일을 생성합니다. 연결을 확인하세요:
claude mcp list
# 결과: fish-audio
Cursor: 커맨드 팔레트를 통해 설정합니다. Cursor 설정 가이드 보기 →
Windsurf: File > Preferences > Windsurf Settings를 통해 설정합니다. Windsurf 설정 가이드 보기 →
연결되면 코딩 에이전트는 다음에 대한 실시간 액세스 권한을 갖게 됩니다.
- 모든 파라미터 및 응답 스키마가 포함된 전체 REST API 참조
- Python 및 JavaScript SDK 가이드 및 작동 예제
- 보이스 클로닝 및 실시간 스트리밍을 위한 모범 사례
- 모델 비교 및 현재 가격 및 속도 제한 표
- 일반적인 통합 문제에 대한 트러블슈팅 가이드
연결 후 질문할 수 있는 내용
Fish Audio MCP 서버는 에디터 내에서 자연어 쿼리를 위해 설계되었습니다. 몇 가지 예시는 다음과 같습니다.
| 쿼리 | 에이전트가 페치하는 내용 |
|---|---|
| "Fish Audio로 어떻게 인증하나요?" | Python 또는 JS SDK 문서의 인증 가이드 |
| "사용 가능한 감정 태그는 무엇인가요?" | 전체 감정 참조 — 기본, 고급, 톤 및 오디오 효과 카테고리의 64개 이상의 태그 전체 |
| "WebSocket 스트리밍을 위한 Python 코드를 보여줘" | 현재 스트리밍 프로토콜이 포함된 WebSocket TTS 가이드 |
| "S1과 S2의 차이점은 무엇인가요?" | 기능 비교가 포함된 모델 개요 — 관련 기사: Fish Audio S2 오픈 소스 공개 → |
| "음성을 어떻게 클로닝하나요?" | 참조 오디오 요구 사항이 포함된 보이스 클로닝 가이드 |
MCP 서버는 공개된 문서에서 실시간 API 정보를 가져오므로, 답변에는 최신 API 참조가 반영됩니다. Fish Audio가 새로운 모델을 출시하거나 엔드포인트를 업데이트하면 에이전트는 다음 쿼리에서 이를 바로 확인할 수 있습니다.
보안: MCP 서버는 공개 문서에 대한 읽기 전용 액세스만 제공합니다. 연결을 통해 API 키가 전송되지 않습니다. 모든 요청은 HTTPS를 사용하며 쿼리나 사용 데이터는 저장되지 않습니다.
아직 Fish Audio를 사용하고 있지 않으신가요? 무료로 시작하기 → — 30초 이내에 MCP 서버를 추가하고 실시간 문서에서 직접 작동하는 TTS 통합 코드를 생성하세요.
Agent Skills: 50개 이상의 코딩 에이전트를 위한 오프라인 우선 API 지침
Agent Skills란 무엇인가요?
Agent Skills는 코딩 에이전트를 위한 재사용 가능한 지침 세트입니다. 생성 시점에 실시간 문서를 페치할 필요 없이 에이전트에게 특정 작업을 처리하는 방법을 정확하게 알려주는 구조화된 SKILL.md 파일입니다.
각 스킬에는 이름, 설명 및 관련 작업이 발생할 때 에이전트가 자동으로 따르는 단계별 지침이 포함되어 있습니다.
스킬은 에이전트의 로컬 스킬 디렉토리에 설치됩니다. 정확한 경로는 에이전트마다 다릅니다. 예를 들어 Claude Code는 전역적으로 ~/.claude/skills/를 사용하거나 프로젝트별로 .claude/skills/를 사용합니다. 일단 설치되면 에이전트는 추가 프롬프트 없이 스킬을 읽습니다. MCP 서버가 필요 없으며 생성 시점에 네트워크 호출도 발생하지 않습니다.
Vercel Labs에서 유지 관리하는 오픈 에이전트 스킬 생태계는 사양을 정의하고 스킬 설치, 업데이트 및 관리를 위한 CLI인 npx skills를 제공합니다. 현재 Claude Code, Codex, Cursor, Windsurf, OpenCode, Gemini CLI, GitHub Copilot을 포함한 50개 이상의 에이전트를 지원합니다.
Fish Audio 스킬 설치하기
Fish Audio는 전체 REST 및 WebSocket API를 다루는 기성 Agent Skill을 게시합니다. 여기에는 인증, OpenAPI 스키마의 모든 엔드포인트, MessagePack vs JSON vs multipart 인코딩 규칙, 다중 화자 대화 설정, WebSocket 스트리밍 프로토콜이 포함됩니다.
npx skills add https://docs.fish.audio --skill fish-audio-api
스킬이 에이전트의 로컬 디렉토리에 설치됩니다. 설치 후 코딩 에이전트에게 다음과 같이 요청해 보세요.
- "curl을 사용하여 Fish Audio TTS API 호출해 줘"
- "Python에서 WebSocket으로 TTS 스트리밍해 줘"
- "[happy] 및 [sad]와 같은 감정 태그를 사용하여 다중 화자 대화를 설정해 줘"
- "[whispering] 스타일을 사용하여 S2로 음성을 생성해 줘"
지원되는 감정 태그의 전체 목록과 고급 전달 제어는 Fish Audio S2 미세 제어 가이드 →를 참조하세요.
다중 캐릭터 프로젝트를 구축 중이신가요? 실질적인 설정 가이드는 여러 음성을 사용한 텍스트 음성 변환 →을 확인하세요.
스킬은 컨벤션을 제공하며 에이전트는 문서를 먼저 페치하지 않고도 이를 따릅니다.
특정 에이전트에 대해 설치하려면:
# Claude Code 전용
npx skills add https://docs.fish.audio --skill fish-audio-api -a claude-code
# Codex 전용
npx skills add https://docs.fish.audio --skill fish-audio-api -a codex
# 감지된 모든 에이전트에 한 번에 설치
npx skills add https://docs.fish.audio --skill fish-audio-api --all
지원되는 전체 에이전트 플래그 목록을 보려면 npx skills --help를 실행하세요.
MCP vs. Skills: 어떤 것을 사용해야 하나요?
두 도구 모두 코딩 에이전트가 Fish Audio를 더 정확하게 사용할 수 있게 해줍니다. 각각 다른 시나리오에 최적화되어 있습니다.
| MCP | Agent Skills | |
|---|---|---|
| 문서 최신성 | 항상 최신 — 실시간 페치 | 설치 시점에 고정 — 업데이트를 위해 npx skills update 실행 |
| 네트워크 필요 | 예 | 아니요 — 설치 후 완전히 오프라인으로 작동 |
| 최적 용도 | 개방형 질문, 새로운 기능 탐색, 엣지 케이스 디버깅 | 반복 가능한 작업, 표준화된 코드 생성, CI/CD 환경 |
| 설정 | mcp add 명령어 한 번 | npx skills add 명령어 한 번 |
| 지원 환경 | Claude Code, Cursor, Windsurf | Claude Code, Codex, Cursor, Windsurf, Gemini CLI 등 50개 이상의 에이전트 |
실질적인 규칙: 실시간 문서 검색 및 탐색적 쿼리에는 MCP를 사용하세요. 알려진 패턴에 대한 안정적인 오프라인 우선 코드 생성에는 Skills를 사용하세요.
대부분의 프로덕션 설정에서는 두 가지를 모두 사용하는 것이 합리적입니다. Skills는 네트워크 라운드 트립 없이 인증, 기본 TTS 호출, WebSocket 설정과 같은 표준 패턴을 처리합니다. MCP는 새로운 모델 파라미터, 업데이트된 속도 제한, 스트리밍 프로토콜의 엣지 케이스와 같이 예상치 못한 질문을 처리합니다.
기존 문서가 AI 에이전트에게 부족한 이유
기존의 API 문서는 인간의 브라우징에 최적화되어 있습니다. AI 코딩 에이전트에게는 구조화된 인덱스, 노이즈가 적은 마크다운, 그리고 오래된 생성 결과와 낭비되는 컨텍스트 토큰을 줄여주는 실시간 검색 경로가 필요합니다.
대부분의 API 문서는 특정 워크플로우를 위해 설계되었습니다. 개발자가 브라우저를 열고 필요한 엔드포인트를 검색하고 페이지를 읽고 스니펫을 복사하는 방식입니다. 이 워크플로우는 수년간 잘 작동해 왔습니다.
하지만 독자가 브라우저를 가진 인간이라는 근본적인 가정은 이제 재검토가 필요합니다. AI 코딩 에이전트는 브라우저를 사용하지 않습니다. 원시 콘텐츠를 페치하고 파싱하며 가져온 내용으로 코드를 생성합니다. 탐색 메뉴, 검색창, 렌더링된 HTML, 임베디드 미디어와 같이 문서를 인간이 읽기 좋게 만드는 인프라는 에이전트에게는 도움보다는 마찰을 더합니다.
특히 다음과 같은 몇 가지 패턴이 가장 큰 문제를 일으킵니다.
기본 형식으로서의 HTML. 에이전트는 기술적으로 HTML을 파싱할 수 있지만, 레이아웃 태그, 스크립트, 탐색 요소와 같이 작업과 관련 없는 방대한 양의 구조적 마크업이 포함되어 있습니다. 10,000자의 HTML 페이지에 실제 문서는 2,000자만 포함되어 있을 수 있습니다. 컨텍스트 윈도우가 한정되어 있을 때 이 격차는 실제 비용으로 이어집니다.
명확한 진입점 부재. 200페이지로 구성된 문서 사이트는 에이전트에게 어디서 시작해야 할지 알려주지 않습니다. 구조화된 인덱스가 없으면 에이전트는 너무 많은 콘텐츠를 가져와 토큰을 낭비하거나, 잘못된 페이지를 가져와 부정확한 코드를 생성하게 됩니다.
노후화되는 콘텐츠. 모델 ID, 엔드포인트 경로, 파라미터 이름은 변경됩니다. 명확한 버저닝이나 지원 중단 신호가 없는 문서는 에이전트가 더 이상 정확하지 않은 사양을 기반으로 코드를 생성하게 만듭니다.
이것은 기존 문서 구축 방식에 대한 비판이 아닙니다. 당시에는 적절한 대상을 위해 구축된 것입니다. 이제 실질적인 질문은 'AI 코딩 에이전트가 개발자가 API와 상호 작용하는 방식의 큰 부분을 차지하게 됨에 따라, 당신의 AI 에이전트 문서가 두 대상 모두에게 잘 작동하는가'입니다.
Fish Audio의 llms.txt, MCP 서버 및 Agent Skills는 이 질문에 대한 우리의 답변입니다. 동일한 문서가 인간이 읽기 좋은 API 문서이자 LLM 및 코딩 에이전트가 읽기 좋은 문서로 동시에 작동하게 만드는 세 개의 계층입니다.
전체 그림: 세 가지가 함께 작동하는 방식
실제 워크플로우에서 전체 3계층 설정이 작동하는 모습은 다음과 같습니다.
-
에이전트가 프로젝트를 열고 Fish Audio 작업을 만납니다. 에이전트는 먼저
llms.txt를 페치하여 개별 페이지를 가져오기 전에 사용 가능한 모든 LLM 친화적 문서의 구조화된 지도를 얻습니다. 토큰 비용은 최소화되고 오리엔테이션 시간은 단 한 번의 페치로 충분합니다. -
에이전트가 코드를 생성합니다. fish-audio-api 스킬이 설치되어 있으면 표준 패턴을 위해 문서를 페치할 필요 없이 스킬의 인증, 인코딩 형식 및 스트리밍 프로토콜 컨벤션을 활용합니다. 출력 결과는 첫 생성부터 API 사양과 일치합니다.
-
에이전트가 특정 사항을 확인해야 합니다 (예: 현재 모델 ID, 속도 제한, S2용 감정 태그 구문). 에이전트는 MCP 서버에 쿼리하여 게시된 문서에서 직접 답변을 얻습니다. 이를 통해 오래되거나 잘못된 정보가 생성될 위험을 줄입니다.
결과적으로 코딩 에이전트는 훈련 이후 엔드포인트나 모델 ID가 변경되었는지 고민할 필요 없이, 첫 번째 시도에서 정확한 Fish Audio 통합 코드를 생성할 수 있습니다.
에이전트 네이티브 문서를 통해 음성 기능을 더 빠르게 출시하세요. Fish Audio 스킬을 한 번 설치하여 모든 프로젝트에서 안전한 TTS 패턴을 재사용하세요. MCP 서버를 연결하여 코딩 에이전트가 직접 문서를 읽게 하세요.
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
Sabrina Shu의 더 많은 글 보기
