发布 Fish Audio S1:前沿文本转语音音频基础模型

2026年3月8日

发布 Fish Audio S1:前沿文本转语音音频基础模型

核心摘要

  • 我们正式发布 Fish Audio S1,这是一款前沿的文本转语音音频基础模型。
  • Fish Audio S1 基于超过 200 万小时的音频数据,并采用在线 RLHF (GRPO) 技术进行训练。
  • Fish Audio S1 在 Seed TTS 评测中实现了 0.8% 的 WER 和 0.4% 的 CER。
  • S1 支持开放域的情感、语气及特殊效果标记。

立即体验 S1

在 Fish Audio 免费体验该模型:https://fish.audio/app/text-to-speech/

Hugging Face 模型页面:https://huggingface.co/fishaudio/openaudio-s1-mini

Fish Audio S1

S1 提供两个版本:

  • S1 (4B) – 全功能旗舰模型,可在 Fish Audio Playground 体验
  • S1-mini (0.5B) – 针对资源受限环境的蒸馏版本,已在 Hugging Face 开源

两款模型均采用 在线 RLHF (GRPO) 技术,并结合自研的奖励模型进行训练。

顶级的语音质量

OpenAudio S1 接受了超过 200 万小时音频的训练,结合了大规模文本-音频对及丰富的监督信息。通过在单个模型中对语义和声学信息进行联合建模,S1 避免了传统“纯语义”流程中常见的信息损失,并减少了伪影和词错误。

Seed TTS 评测(基于 GPT-4o 的转录和基于 pyannote 的说话人指标)中,S1 取得了以下成绩:

  • WER: 0.008
  • CER: 0.004

S1-mini 紧随其后:

  • WER: 0.011
  • CER: 0.005

OpenAudio S1 在 HuggingFace TTS-Arena-V2 上也获得了最高 ELO 评分,在自然度、清晰度和相似度的真人主观评价中排名第一。

配音演员级别的控制力

Fish Audio S1 实现了对情感和表达方式的精细化控制。我们训练了自己的语音转文本模型(即将发布),用于为音频标注情感、语气、说话人标签及事件,并利用该模型标注了超过 10 万小时的音频数据以进行指令遵循训练。

您可以通过 (angry)、(sad)、(in a hurry)、(chuckling) 等情感标记来引导 S1。在此处查看完整的推荐情感标签列表:https://docs.fish.audio/developer-guide/core-features/emotions

全球化、多语言语音

OpenAudio S1 旨在触达全球用户。它支持多种语言,包括:

英语、中文、日语、德语、法语、西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语

您可以在同一个提示词中混合使用多种语言,模型将根据脚本和上下文自然适配。

架构、速度与成本

在技术底层,OpenAudio S1:

  • 采用 Qwen3 架构作为多模态骨干网络
  • 采用自研的音频编解码器(灵感源自 Descript Audio Codec),从零开始训练
  • 使用基于 GRPO 的在线 RLHF 来优化人类偏好

通过 torch compile 和优化的推理过程,S1 在 NVIDIA RTX 4090 上的实时率约为 1:7,非常适合交互式应用。

在价格方面,S1 的设计旨在让更多人负担得起:

  • 每百万字节约 15 美元,折合每小时音频约 0.8 美元

这使得高质量的 TTS 即使在大规模或预算敏感的任务中也具有可行性。

  • 基于短样本的零样本 (Zero-shot) 和少样本 (Few-shot) 声音克隆
  • 多语言和跨语言 TTS
  • 无音素依赖,直接从文本处理任意脚本

开启 OpenAudio S1 之旅

您现在就可以尝试 OpenAudio S1:

创造真实感的声音

立即开始生成最高质量的音频。

已有账号? 登录

分享这篇文章


Zhizhuo Zhou

Zhizhuo ZhouX

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.

阅读Zhizhuo Zhou的更多内容 >

最新文章

查看全部 >