音频扩散模型

2026年3月8日

音频扩散模型

要点

  • 我们发布了 Fish Diffusion,这是一个用于音频生成的开源框架
  • Fish Diffusion 适用于 TTS、SVC 和 SVS

GitHub: https://github.com/fishaudio/fish-diffusion

核心原理

该仓库的核心是围绕模块化构建的:

  1. 声学模型应该是可替换的(扩散模型、Grad-TTS 风格、基于 GAN 的模型)。
  2. 条件信号(文本、说话人、音高、能量)应该是模块化的。

统一建模栈

仓库中的架构都遵循类似的模式:

  • 它们接收带有 contents、speaker、pitches、energy 和 lengths 等键的结构化批处理数据。
  • 它们根据序列长度构建掩码,以避免在填充(padding)部分计算损失。
  • 它们生成频谱图(用于扩散模型)或原始波形(用于 GAN 模型)。

基于扩散的模型(如 DiffSinger/GradTTS 路径)专注于根据文本和韵律的融合表示生成梅尔频谱图。HiFiSinger 风格的模型则直接生成波形,依靠判别器来增强真实感。尽管存在这些差异,它们都通过相同的配置和训练抽象联系在一起。

模块化条件和注册表

Fish Diffusion 将编码器和声码器视为可插拔组件。文本编码器、说话人编码器、音高编码器和能量编码器都是通过注册表构建的,因此从一个特征提取器或声码器切换到另一个通常只需要更改配置。

这使得该仓库非常适合:

  • 多说话人和语音克隆设置
  • 侧重韵律的任务(唱歌、情感演讲)
  • 不同前端特征栈的快速实验

同样的理念也适用于扩散模型、调度器和优化器,它们同样通过基于注册表的构建器进行构建。

尝试我们最新的前沿音频模型

您现在可以尝试 OpenAudio S1:

创造真实感的声音

立即开始生成最高质量的音频。

已有账号? 登录

分享这篇文章


Shijia Liao

Shijia LiaoX

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

阅读Shijia Liao的更多内容 >

最新文章

查看全部 >