音频扩散模型
2026年3月8日

要点
- 我们发布了 Fish Diffusion,这是一个用于音频生成的开源框架
- Fish Diffusion 适用于 TTS、SVC 和 SVS
GitHub: https://github.com/fishaudio/fish-diffusion
核心原理
该仓库的核心是围绕模块化构建的:
- 声学模型应该是可替换的(扩散模型、Grad-TTS 风格、基于 GAN 的模型)。
- 条件信号(文本、说话人、音高、能量)应该是模块化的。
统一建模栈
仓库中的架构都遵循类似的模式:
- 它们接收带有 contents、speaker、pitches、energy 和 lengths 等键的结构化批处理数据。
- 它们根据序列长度构建掩码,以避免在填充(padding)部分计算损失。
- 它们生成频谱图(用于扩散模型)或原始波形(用于 GAN 模型)。
基于扩散的模型(如 DiffSinger/GradTTS 路径)专注于根据文本和韵律的融合表示生成梅尔频谱图。HiFiSinger 风格的模型则直接生成波形,依靠判别器来增强真实感。尽管存在这些差异,它们都通过相同的配置和训练抽象联系在一起。
模块化条件和注册表
Fish Diffusion 将编码器和声码器视为可插拔组件。文本编码器、说话人编码器、音高编码器和能量编码器都是通过注册表构建的,因此从一个特征提取器或声码器切换到另一个通常只需要更改配置。
这使得该仓库非常适合:
- 多说话人和语音克隆设置
- 侧重韵律的任务(唱歌、情感演讲)
- 不同前端特征栈的快速实验
同样的理念也适用于扩散模型、调度器和优化器,它们同样通过基于注册表的构建器进行构建。
尝试我们最新的前沿音频模型
您现在可以尝试 OpenAudio S1:
- Fish Audio Playground (S1): https://fish.audio
- S1-mini on Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini
