Fish Audio S2

史上最具表现力的语音AI,
现已完全开源,
触手可及。

生成难以置信的逼真语音

立即试用 Fish Audio S2

S2的独特之处

从零开始为表现力、速度和开放性而构建。

超低延迟

低于150毫秒的响应时间,支持实时对话AI、实时配音和交互式语音应用。生产级性能,不牺牲质量。

<150ms

开放领域控制与多说话人

通过自然文本指令控制情感、副语言等。添加笑声、耳语、叹息和任何表达元素。无缝多说话人对话——在单次生成中自然切换说话人。

<|speaker:1|> [giggles]

完全开源

推理代码和模型权重完全开源。在您自己的基础设施上运行,使用您的数据微调,无供应商锁定地集成。为透明度和社区驱动的创新而构建。

Built with SGLang

使用 Fish Audio S2 API 构建

在80多种语言中生成逼真的语音,支持情感、指令和多说话人控制。

from fishaudio import FishAudio
from fishaudio.utils import save

# Initialize with your API key
client = FishAudio(api_key="your_api_key_here")

# Generate speech
audio = client.tts.convert(text="Fish Audio S2 is the best voice AI model.", model="s2-pro")
save(audio, "welcome.mp3")

常见问题

Fish Audio S2 Pro 是一款领先的文本转语音模型,具备细粒度的韵律和情感内联控制能力。基于超过 1000 万小时的 80+ 语言音频数据训练,结合强化学习对齐和双自回归(Dual-AR)架构——40 亿参数的慢速 AR 用于语义预测,4 亿参数的快速 AR 用于声学细节。发布内容包括模型权重、微调代码和基于 SGLang 的流式推理引擎。

S2 Pro 通过在文本中使用 [tag] 语法直接嵌入自然语言指令来实现对语音生成的局部控制。它不依赖于预定义标签集,而是接受自由文本描述——例如 [whisper in small voice]、[professional broadcast tone] 或 [pitch up]——实现词级别的开放式表达控制。支持超过 15,000 种独特标签,包括 [pause]、[emphasis]、[laughing]、[excited]、[whisper]、[singing] 等。

在单块 NVIDIA H200 GPU 上,S2 Pro 的实时因子(RTF)为 0.195,首次音频延迟约 100 毫秒,吞吐量超过每秒 3,000 个声学 token,同时保持 RTF 低于 0.5。基于 SGLang 的推理引擎继承了所有 LLM 原生服务优化——包括连续批处理、分页 KV 缓存、CUDA 图重放和基于 RadixAttention 的前缀缓存。

S2 Pro 支持 80+ 种语言。第一梯队语言(最高质量)包括日语、英语和中文。第二梯队语言包括韩语、西班牙语、葡萄牙语、阿拉伯语、俄语、法语和德语。还支持更多语言,包括瑞典语、意大利语、土耳其语、荷兰语、印地语、泰语、越南语等。

S2 Pro 采用 Fish Audio Research License 许可证。研究和非商业用途可免费使用。商业用途需要从 Fish Audio 获取单独的许可证——详情请联系 business@fish.audio。