能力,生产级。定价,初创友好。开放,社区级。
通过一套 API 集成拟真语音合成、声音克隆与语音转录。官方 Python、TypeScript SDK。亚秒级延迟,从第一次调用起按量付费。

S2.1 Pro 正在实时运行。选个声音,输入一句话,立即听到回放。这正是 HeyGen、Retell 和 Sanas 在生产中使用的同款模型——无需注册,无需销售沟通,也无需 demo 环境。
# The same call. The (direction) tags travel with the text.
curl https://api.fish.audio/v1/tts \
-H "Authorization: Bearer $FISH_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "刀不锋利马太瘦,你拿 [强调] 什么跟我斗",
"reference_id": "7f92f8afb8ec43bf81429cc1c9199cb1",
"format": "mp3"
}' --output speech.mp3从注册到首段音频,只需 5 几分钟。
无需销售沟通。拿到 API 密钥,装好 SDK,就能上线。
# Text to speech in one callcurl -X POST \ https://api.fish.audio/v1/tts \-H "Authorization: Bearer $FISH_API_KEY" \-H "Content-Type: application/json" \-H "model: s2.1-pro-free" \-d '{"text": "Hello! Welcome to Fish Audio."}' \--output welcome.mp3
# Text to speech with the Python SDKfrom fish_audio_sdk import Session, TTSRequestsession = Session("YOUR_API_KEY")request = TTSRequest(text="Hello! Welcome to Fish Audio.")with open("welcome.mp3", "wb") as f:for chunk in session.tts(request):f.write(chunk)
团队在 Fish 上上线的产品。
上镜也撑得住的声音
# 数字人视频为 AI 数字人产品提供可对口型、懂情感的 TTS。内联方向标签驱动的是表演,而不只是把字念出来。
实时对话式 AI
# 语音 Agent通过 WebSocket 实现亚秒级轮次响应。流式 TTS 与 ASR 同处一栈,并支持打断感知。
动态口播内容。
# 音频内容与陪伴笔记转音频、备考工具、AI 陪伴。按字符计费,随用量增长,而非按席位。
30 秒克隆完成。或者干脆不克隆。
# 角色类 AppIVC 基于 30 秒音频完成;PVC 用于工作室级复刻。也可以直接浏览声音库,不克隆也能上线。
为实时语音栈而生。
开放权重,付费商业许可。
我们的开源模型 —— fish-speech、S1 和 S2 —— 以开放权重发布,并附带付费商业许可。当生产环境需要时,可自托管到你的 VPC、本地、主权云或气隙环境。自托管是 Enterprise 档位合作,详见下文。
15,000+ 方向标签,可在任意调用中内联。
[warm], [near-whisper], [reassuring] —— 方向标签随文本本身一同传递。无需额外参数,没有列表要挑,标签集扩充时也无需做 schema 迁移。
音频图灵测试:0.515。
盲评中,听众无法可靠地分辨 S2.1 Pro 与真人。581 次一对一对比。方法论与原始音频均已公开。
每百万字符 $15,从第一次调用起。
HeyGen、Pictoria、Dubbing AI 与 Plaud 背后的同款模型。从第一次调用起按量付费。无需「联系我们」才能拿到生产价格。
用我们的 API,或自托管模型
云端 API,服务所有正在开发的团队;当生产环境需要时,再以高级 Enterprise 合作自托管。
托管 API · 适合任何团队
云端 API,按量付费,每百万字符 $15。对于无需自行运维模型的团队,这是上线生产最快的路径。
- WebSocket 流式传输、REST、Python + TypeScript SDK
- $15 / 1M UTF-8 bytes —— 无需承诺用量
- 每次调用都可内联方向标签语法
- 与开放权重版本完全同款的模型
自托管模型。
我们的开源模型 —— fish-speech、S1、S2 —— 以开放权重发布,并附带付费商业许可。可部署到你的 VPC、数据中心、主权云或气隙环境。这是面向高用量团队的高级合作,适用于有数据驻留、微调或合规部署要求的场景。
- WebSocket 流式传输、REST、Python + TypeScript SDK
- $10k/月
- 实际起步成本:$120–150K/年
- 直接对接我们的研究团队