15 秒克隆任何声音。
丢进一段 10 秒音频,几秒后声音就能开整。让一位现任总统给你的相亲 App 配旁白,让科技亿万富翁发布你最离谱的创业点子,或者做一档全员虚构的 fake-panel 播客——不用录音棚,也不用长期养一个模仿演员。
请朗读上方段落
为速度而生,无需等待即可上线
10 秒音频。几秒得到可用声音。无需漫长棚录、训练排队或高级套餐门槛。
10 秒克隆
一段短音频就够。无需 30 分钟棚录,也不需要高级套餐。
棚录级保真度
首次生成就捕捉音色、语速节奏和细微韵律,即使来源是嘈杂的现场录音。
数秒即可就绪
即时完成。无需经历数小时训练排队,就能得到可用声音。
13 种语言零样本
克隆一次,到处开口。无需单独多语种模型、额外训练或重新录音。
情绪随克隆保留下来
愤怒、讽刺、迟疑,这些让声音被识别的小细节会贯穿每一句话。
开源 S2,API 即用
可自托管模型,调用低于 300ms 的流式端点,或把声音接入你的智能体和应用。
为什么选择 Fish Audio S2
极速克隆、开放部署、全球化声音,以及面向生产的流式体验。
参考音频
10 秒就足够
克隆可用耗时
数秒,而非数小时
跨语种
13 种语言零样本
流式延迟
端到端低于 300ms
模型开放性
S2 开源,可自托管
免费层
免费开始,无需信用卡
创作者真正会拿它干的事
段子、吐槽、跨语种二创——为信息流而生,不是为董事会。
常见问题
Fish Audio S2 只需 10 秒样本即可克隆,提供低于 300ms 的流式输出,并支持 13 种语言的零样本跨语种生成,而且模型本身开源。你可以在 语音克隆 页面试用。
10 秒干净语音就足够。更长样本对非常有表现力的声音会有帮助,但大多数公众人物片段、播客切片或电话音质录音首次即可使用。
可以。S2 在 13 种语言上支持零样本跨语种。克隆一次英文演讲,就能用同一个声音输出西班牙语、日语、阿拉伯语或任何受支持语言,无需重新训练。
你有责任确认自己已获得克隆任何声音所需的权利、同意和披露,并遵守所在地区关于姓名、形象和 AI 生成内容的适用法律。Fish Audio 不会预先审批具体用例,并可能移除违反我们条款或适用法律的内容或账号。
可以。付费计划包含商业使用权,流式 API 可将克隆声音直接接入你的应用、智能体和配音流水线。具体层级请查看 价格页。