推介 Fish-Speech:下一代多语言 TTS

2026年3月8日

推介 Fish-Speech:下一代多语言 TTS

核心要点

  • 我们推出了 Fish-Speech,这是一款基于 Transformer 的 SoTA 自回归多语言 TTS 系统
  • 我们采用了新颖的双 AR 架构,以实现稳定且自然的韵律
  • Firefly-GAN 声码器具有接近 100% 的码本利用率,可实现更具表现力的语音
  • 在 72 万小时的数据上进行训练,专为实时 AI 智能体打造

技术论文:https://arxiv.org/abs/2411.01156


Fish-Speech 是一款新型多语言文本转语音系统,它将 LLM 推理能力直接引入到语音流水线中。它不再依赖脆弱的字素到音素规则,而是利用语言模型原生理解文本,使其在多音字表达、混合语言内容以及高度依赖上下文的输入方面表现得更为出色。

双 AR 架构

该系统使用 Slow Transformer 处理高级语言结构,并使用 Fast Transformer 处理声学细节。这种两阶段过程稳定了生成过程,提高了码本利用率,并消除了扩散延迟。通过 KV-cache 和其他优化,Fish-Speech 的首包延迟可缩短至约 150 毫秒,使其成为交互式智能体的理想选择。

Firefly-GAN 声码器

在音频层,Firefly-GAN 声码器结合了深度/扩张卷积与分组标量矢量量化。这种设计实现了几乎完整的码本利用率,并能高效处理情感和多语言合成,同时保持极高的音频质量。

大规模训练

Fish-Speech 在涵盖主要语系的 720,000 小时多语言音频上进行了训练。均衡的数据集有助于模型在不同语言、口音和混合语言场景中保持一致的质量。

声音克隆质量

该系统在字错率(WER)、说话人相似度和 MOS 方面取得了领先性能——击败了强劲的基准模型,甚至在 WER 方面超过了真实转录文本。它能以高保真度保留音色、韵律和身份特征。

立即体验

Fish-Speech 已在以下平台开源:

创造真实感的声音

立即开始生成最高质量的音频。

已有账号? 登录

分享这篇文章


Shijia Liao

Shijia LiaoX

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

阅读Shijia Liao的更多内容 >

最新文章

查看全部 >