发布 Fish Audio S1：前沿文本转语音音频基础模型

2026年3月8日

Zhizhuo Zhou, ML Researcher

研究

核心摘要

我们正式发布 Fish Audio S1，这是一款前沿的文本转语音音频基础模型。
Fish Audio S1 基于超过 200 万小时的音频数据，并采用在线 RLHF (GRPO) 技术进行训练。
Fish Audio S1 在 Seed TTS 评测中实现了 0.8% 的 WER 和 0.4% 的 CER。
S1 支持开放域的情感、语气及特殊效果标记。

立即体验 S1

在 Fish Audio 免费体验该模型：https://fish.audio/app/text-to-speech/

Hugging Face 模型页面：https://huggingface.co/fishaudio/openaudio-s1-mini

Fish Audio S1

S1 提供两个版本：

S1 (4B) – 全功能旗舰模型，可在 Fish Audio Playground 体验
S1-mini (0.5B) – 针对资源受限环境的蒸馏版本，已在 Hugging Face 开源

两款模型均采用 在线 RLHF (GRPO) 技术，并结合自研的奖励模型进行训练。

顶级的语音质量

OpenAudio S1 接受了超过 200 万小时音频的训练，结合了大规模文本-音频对及丰富的监督信息。通过在单个模型中对语义和声学信息进行联合建模，S1 避免了传统“纯语义”流程中常见的信息损失，并减少了伪影和词错误。

在 Seed TTS 评测（基于 GPT-4o 的转录和基于 pyannote 的说话人指标）中，S1 取得了以下成绩：

WER: 0.008
CER: 0.004

S1-mini 紧随其后：

WER: 0.011
CER: 0.005

OpenAudio S1 在 HuggingFace TTS-Arena-V2 上也获得了最高 ELO 评分，在自然度、清晰度和相似度的真人主观评价中排名第一。

配音演员级别的控制力

Fish Audio S1 实现了对情感和表达方式的精细化控制。我们训练了自己的语音转文本模型（即将发布），用于为音频标注情感、语气、说话人标签及事件，并利用该模型标注了超过 10 万小时的音频数据以进行指令遵循训练。

您可以通过 (angry)、(sad)、(in a hurry)、(chuckling) 等情感标记来引导 S1。在此处查看完整的推荐情感标签列表：https://docs.fish.audio/developer-guide/core-features/emotions

全球化、多语言语音

OpenAudio S1 旨在触达全球用户。它支持多种语言，包括：

英语、中文、日语、德语、法语、西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语

您可以在同一个提示词中混合使用多种语言，模型将根据脚本和上下文自然适配。

架构、速度与成本

在技术底层，OpenAudio S1：

采用 Qwen3 架构作为多模态骨干网络
采用自研的音频编解码器（灵感源自 Descript Audio Codec），从零开始训练
使用基于 GRPO 的在线 RLHF 来优化人类偏好

通过 torch compile 和优化的推理过程，S1 在 NVIDIA RTX 4090 上的实时率约为 1:7，非常适合交互式应用。

在价格方面，S1 的设计旨在让更多人负担得起：

每百万字节约 15 美元，折合每小时音频约 0.8 美元

这使得高质量的 TTS 即使在大规模或预算敏感的任务中也具有可行性。

基于短样本的零样本 (Zero-shot) 和少样本 (Few-shot) 声音克隆
多语言和跨语言 TTS
无音素依赖，直接从文本处理任意脚本

开启 OpenAudio S1 之旅

您现在就可以尝试 OpenAudio S1：

Fish Audio Playground (S1): https://fish.audio
Hugging Face 上的 S1-mini: https://huggingface.co/fishaudio/openaudio-s1-mini

创造真实感的声音

立即开始生成最高质量的音频。

免费注册

已有账号？登录

分享这篇文章

Zhizhuo Zhou

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.

阅读Zhizhuo Zhou的更多内容 >