推介 Fish-Speech：下一代多语言 TTS

2026年3月8日

Shijia Liao, Chief Scientist

研究

推介 Fish-Speech：下一代多语言 TTS

核心要点

我们推出了 Fish-Speech，这是一款基于 Transformer 的 SoTA 自回归多语言 TTS 系统
我们采用了新颖的双 AR 架构，以实现稳定且自然的韵律
Firefly-GAN 声码器具有接近 100% 的码本利用率，可实现更具表现力的语音
在 72 万小时的数据上进行训练，专为实时 AI 智能体打造

技术论文：https://arxiv.org/abs/2411.01156

Fish-Speech 是一款新型多语言文本转语音系统，它将 LLM 推理能力直接引入到语音流水线中。它不再依赖脆弱的字素到音素规则，而是利用语言模型原生理解文本，使其在多音字表达、混合语言内容以及高度依赖上下文的输入方面表现得更为出色。

双 AR 架构

该系统使用 Slow Transformer 处理高级语言结构，并使用 Fast Transformer 处理声学细节。这种两阶段过程稳定了生成过程，提高了码本利用率，并消除了扩散延迟。通过 KV-cache 和其他优化，Fish-Speech 的首包延迟可缩短至约 150 毫秒，使其成为交互式智能体的理想选择。

Firefly-GAN 声码器

在音频层，Firefly-GAN 声码器结合了深度/扩张卷积与分组标量矢量量化。这种设计实现了几乎完整的码本利用率，并能高效处理情感和多语言合成，同时保持极高的音频质量。

大规模训练

Fish-Speech 在涵盖主要语系的 720,000 小时多语言音频上进行了训练。均衡的数据集有助于模型在不同语言、口音和混合语言场景中保持一致的质量。

声音克隆质量

该系统在字错率（WER）、说话人相似度和 MOS 方面取得了领先性能——击败了强劲的基准模型，甚至在 WER 方面超过了真实转录文本。它能以高保真度保留音色、韵律和身份特征。

立即体验

Fish-Speech 已在以下平台开源：

GitHub: https://github.com/fishaudio/fish-speech
Demo: https://fish.audio

创造真实感的声音

立即开始生成最高质量的音频。

已有账号？登录

分享这篇文章

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

阅读Shijia Liao的更多内容 >

最新文章

《如何将提示词转化为完整的歌曲：文字生成音乐》封面图，展示未来感设计和标题文字

如何将提示词转化为完整的歌曲：文字生成音乐指南

2026年3月8日

Fish Audio 品牌标志

2026年最佳语音转文字 (STT) API：技术对比与集成指南

2026年3月8日

如何逐步使用 SAM Audio 进行音频分离

如何逐步使用 SAM Audio 进行音频分离

2026年3月8日

《如何将提示词转化为完整的歌曲：文字生成音乐》封面图，展示未来感设计和标题文字

如何将提示词转化为完整的歌曲：文字生成音乐指南

2026年3月8日

Fish Audio 品牌标志

2026年最佳语音转文字 (STT) API：技术对比与集成指南

2026年3月8日

如何逐步使用 SAM Audio 进行音频分离

如何逐步使用 SAM Audio 进行音频分离

2026年3月8日