音频扩散模型

2026年3月8日

Shijia Liao, Chief Scientist

研究

音频扩散模型

要点

我们发布了 Fish Diffusion，这是一个用于音频生成的开源框架
Fish Diffusion 适用于 TTS、SVC 和 SVS

GitHub: https://github.com/fishaudio/fish-diffusion

核心原理

该仓库的核心是围绕模块化构建的：

声学模型应该是可替换的（扩散模型、Grad-TTS 风格、基于 GAN 的模型）。
条件信号（文本、说话人、音高、能量）应该是模块化的。

统一建模栈

仓库中的架构都遵循类似的模式：

它们接收带有 contents、speaker、pitches、energy 和 lengths 等键的结构化批处理数据。
它们根据序列长度构建掩码，以避免在填充（padding）部分计算损失。
它们生成频谱图（用于扩散模型）或原始波形（用于 GAN 模型）。

基于扩散的模型（如 DiffSinger/GradTTS 路径）专注于根据文本和韵律的融合表示生成梅尔频谱图。HiFiSinger 风格的模型则直接生成波形，依靠判别器来增强真实感。尽管存在这些差异，它们都通过相同的配置和训练抽象联系在一起。

模块化条件和注册表

Fish Diffusion 将编码器和声码器视为可插拔组件。文本编码器、说话人编码器、音高编码器和能量编码器都是通过注册表构建的，因此从一个特征提取器或声码器切换到另一个通常只需要更改配置。

这使得该仓库非常适合：

多说话人和语音克隆设置
侧重韵律的任务（唱歌、情感演讲）
不同前端特征栈的快速实验

同样的理念也适用于扩散模型、调度器和优化器，它们同样通过基于注册表的构建器进行构建。

尝试我们最新的前沿音频模型

您现在可以尝试 OpenAudio S1：

Fish Audio Playground (S1): https://fish.audio
S1-mini on Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

创造真实感的声音

立即开始生成最高质量的音频。

已有账号？登录

分享这篇文章

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

阅读Shijia Liao的更多内容 >

最新文章

《如何将提示词转化为完整的歌曲：文字生成音乐》封面图，展示未来感设计和标题文字

如何将提示词转化为完整的歌曲：文字生成音乐指南

2026年3月8日

Fish Audio 品牌标志

2026年最佳语音转文字 (STT) API：技术对比与集成指南

2026年3月8日

如何逐步使用 SAM Audio 进行音频分离

如何逐步使用 SAM Audio 进行音频分离

2026年3月8日

《如何将提示词转化为完整的歌曲：文字生成音乐》封面图，展示未来感设计和标题文字

如何将提示词转化为完整的歌曲：文字生成音乐指南

2026年3月8日

Fish Audio 品牌标志

2026年最佳语音转文字 (STT) API：技术对比与集成指南

2026年3月8日

如何逐步使用 SAM Audio 进行音频分离

如何逐步使用 SAM Audio 进行音频分离

2026年3月8日