发布 Fish Audio S1:前沿文本转语音音频基础模型
2026年3月8日

核心摘要
- 我们正式发布 Fish Audio S1,这是一款前沿的文本转语音音频基础模型。
- Fish Audio S1 基于超过 200 万小时的音频数据,并采用在线 RLHF (GRPO) 技术进行训练。
- Fish Audio S1 在 Seed TTS 评测中实现了 0.8% 的 WER 和 0.4% 的 CER。
- S1 支持开放域的情感、语气及特殊效果标记。
立即体验 S1
在 Fish Audio 免费体验该模型:https://fish.audio/app/text-to-speech/
Hugging Face 模型页面:https://huggingface.co/fishaudio/openaudio-s1-mini
Fish Audio S1
S1 提供两个版本:
- S1 (4B) – 全功能旗舰模型,可在 Fish Audio Playground 体验
- S1-mini (0.5B) – 针对资源受限环境的蒸馏版本,已在 Hugging Face 开源
两款模型均采用 在线 RLHF (GRPO) 技术,并结合自研的奖励模型进行训练。
顶级的语音质量
OpenAudio S1 接受了超过 200 万小时音频的训练,结合了大规模文本-音频对及丰富的监督信息。通过在单个模型中对语义和声学信息进行联合建模,S1 避免了传统“纯语义”流程中常见的信息损失,并减少了伪影和词错误。
在 Seed TTS 评测(基于 GPT-4o 的转录和基于 pyannote 的说话人指标)中,S1 取得了以下成绩:
- WER: 0.008
- CER: 0.004
S1-mini 紧随其后:
- WER: 0.011
- CER: 0.005
OpenAudio S1 在 HuggingFace TTS-Arena-V2 上也获得了最高 ELO 评分,在自然度、清晰度和相似度的真人主观评价中排名第一。
配音演员级别的控制力
Fish Audio S1 实现了对情感和表达方式的精细化控制。我们训练了自己的语音转文本模型(即将发布),用于为音频标注情感、语气、说话人标签及事件,并利用该模型标注了超过 10 万小时的音频数据以进行指令遵循训练。
您可以通过 (angry)、(sad)、(in a hurry)、(chuckling) 等情感标记来引导 S1。在此处查看完整的推荐情感标签列表:https://docs.fish.audio/developer-guide/core-features/emotions
全球化、多语言语音
OpenAudio S1 旨在触达全球用户。它支持多种语言,包括:
英语、中文、日语、德语、法语、西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语
您可以在同一个提示词中混合使用多种语言,模型将根据脚本和上下文自然适配。
架构、速度与成本
在技术底层,OpenAudio S1:
- 采用 Qwen3 架构作为多模态骨干网络
- 采用自研的音频编解码器(灵感源自 Descript Audio Codec),从零开始训练
- 使用基于 GRPO 的在线 RLHF 来优化人类偏好
通过 torch compile 和优化的推理过程,S1 在 NVIDIA RTX 4090 上的实时率约为 1:7,非常适合交互式应用。
在价格方面,S1 的设计旨在让更多人负担得起:
- 每百万字节约 15 美元,折合每小时音频约 0.8 美元
这使得高质量的 TTS 即使在大规模或预算敏感的任务中也具有可行性。
- 基于短样本的零样本 (Zero-shot) 和少样本 (Few-shot) 声音克隆
- 多语言和跨语言 TTS
- 无音素依赖,直接从文本处理任意脚本
开启 OpenAudio S1 之旅
您现在就可以尝试 OpenAudio S1:
- Fish Audio Playground (S1): https://fish.audio
- Hugging Face 上的 S1-mini: https://huggingface.co/fishaudio/openaudio-s1-mini
