推介 Fish-Speech:下一代多语言 TTS
2026年3月8日

核心要点
- 我们推出了 Fish-Speech,这是一款基于 Transformer 的 SoTA 自回归多语言 TTS 系统
- 我们采用了新颖的双 AR 架构,以实现稳定且自然的韵律
- Firefly-GAN 声码器具有接近 100% 的码本利用率,可实现更具表现力的语音
- 在 72 万小时的数据上进行训练,专为实时 AI 智能体打造
技术论文:https://arxiv.org/abs/2411.01156
Fish-Speech 是一款新型多语言文本转语音系统,它将 LLM 推理能力直接引入到语音流水线中。它不再依赖脆弱的字素到音素规则,而是利用语言模型原生理解文本,使其在多音字表达、混合语言内容以及高度依赖上下文的输入方面表现得更为出色。
双 AR 架构
该系统使用 Slow Transformer 处理高级语言结构,并使用 Fast Transformer 处理声学细节。这种两阶段过程稳定了生成过程,提高了码本利用率,并消除了扩散延迟。通过 KV-cache 和其他优化,Fish-Speech 的首包延迟可缩短至约 150 毫秒,使其成为交互式智能体的理想选择。
Firefly-GAN 声码器
在音频层,Firefly-GAN 声码器结合了深度/扩张卷积与分组标量矢量量化。这种设计实现了几乎完整的码本利用率,并能高效处理情感和多语言合成,同时保持极高的音频质量。
大规模训练
Fish-Speech 在涵盖主要语系的 720,000 小时多语言音频上进行了训练。均衡的数据集有助于模型在不同语言、口音和混合语言场景中保持一致的质量。
声音克隆质量
该系统在字错率(WER)、说话人相似度和 MOS 方面取得了领先性能——击败了强劲的基准模型,甚至在 WER 方面超过了真实转录文本。它能以高保真度保留音色、韵律和身份特征。
立即体验
Fish-Speech 已在以下平台开源:
- GitHub: https://github.com/fishaudio/fish-speech
- Demo: https://fish.audio
