限时优惠- 年付五折立即兑换

Fish Audio S2

史上最具表现力的
语音 AI,
现已开源。

生成令人难以置信的逼真语音

立即体验 Fish Audio S2

S2 的独特之处

从零打造,专为表现力、速度与开放性而生。

超低延迟

低于 150 毫秒的响应时间,支持实时对话式 AI、实时配音和交互式语音应用。生产级性能,品质毫不妥协。

<150ms

开放域控制与多说话人

通过自然语言指令控制情感、副语言等表达要素。随心添加笑声、耳语、叹息及任意表现元素。无缝多说话人对话——在单次生成中自然切换说话人。

<|speaker:1|> [giggles]

完全开源

推理代码与模型权重完全开源。在自有基础设施上运行 S2,用自有数据微调,无供应商锁定。为透明与社区驱动的创新而生。

Built with SGLang

使用 Fish Audio S2 API 构建

支持 80 多种语言,生成栩栩如生的语音,具备情感、指令和多说话人控制能力。

from fishaudio import FishAudio
from fishaudio.utils import save

# Initialize with your API key
client = FishAudio(api_key="your_api_key_here")

# Generate speech
audio = client.tts.convert(text="Fish Audio S2 is the best voice AI model.", model="s2-pro")
save(audio, "welcome.mp3")

常见问题

Fish Audio S2 Pro 是一款领先的文本转语音模型,具备细粒度的韵律和情感内联控制能力。基于超过一千万小时、覆盖 80 多种语言的音频数据训练,结合强化学习对齐与双自回归(Dual-AR)架构——40 亿参数的慢速 AR 负责语义预测,4 亿参数的快速 AR 负责声学细节。发布内容包括模型权重、微调代码及基于 SGLang 的流式推理引擎。

S2 Pro 通过在文本中使用 [tag] 语法直接嵌入自然语言指令,实现对语音生成的局部精细控制。它不依赖固定的预定义标签集,而是接受自由文本描述——如 [whisper in small voice]、[professional broadcast tone] 或 [pitch up]——实现词级别的开放式表达控制。支持超过 15,000 种独特标签,包括 [pause]、[emphasis]、[laughing]、[excited]、[whisper]、[singing] 等。

在单块 NVIDIA H200 GPU 上,S2 Pro 实时因子(RTF)为 0.195,首音频延迟约 100 毫秒,吞吐量超过每秒 3,000 个声学 token,同时保持 RTF 低于 0.5。基于 SGLang 的推理引擎继承了全部 LLM 原生服务优化——包括连续批处理、分页 KV 缓存、CUDA 图重放和基于 RadixAttention 的前缀缓存。

S2 Pro 支持 80 多种语言。第一梯队语言(最高质量)包括日语、英语和中文。第二梯队语言包括韩语、西班牙语、葡萄牙语、阿拉伯语、俄语、法语和德语。此外还支持瑞典语、意大利语、土耳其语、荷兰语、印地语、泰语、越南语等更多语言。

S2 Pro 采用 Fish Audio Research License 许可协议。研究和非商业用途可免费使用。商业用途需从 Fish Audio 获取单独授权——详情请联系 business@fish.audio。