Modelos de Difusão de Áudio

30 de nov. de 2024

Lengyue, AI ResearcherPesquisa

Principais Conclusões

Lançamos o Fish Diffusion, um framework de código aberto para geração de áudio
O Fish Diffusion é útil para TTS, SVC e SVS

GitHub: https://github.com/fishaudio/fish-diffusion

Princípio Central

Em sua essência, o repositório é construído em torno da modularidade:

Modelos acústicos devem ser intercambiáveis (difusão, estilo Grad-TTS, baseados em GAN).
Sinais de condicionamento (texto, falante, tom, energia) devem ser modulares.

Uma pilha de modelagem unificada

As arquiteturas no repositório compartilham padrões semelhantes:

Elas recebem lotes estruturados com chaves como conteúdos, falante, tons, energia e comprimentos.
Elas constroem máscaras a partir dos comprimentos das sequências para evitar o cálculo de perda em preenchimento (padding).
Elas produzem espectrogramas (para modelos de difusão) ou formas de onda brutas (para modelos GAN).

Modelos baseados em difusão (como os caminhos DiffSinger/GradTTS) focam na geração de mel-espectrogramas condicionados a uma representação fundida de texto e prosódia. Modelos no estilo HiFiSinger vão direto para as formas de onda, contando com discriminadores para impor realismo. Apesar dessas diferenças, eles são unidos pelas mesmas abstrações de configuração e treinamento.

Condicionamento modular e registros

O Fish Diffusion trata codificadores e vocoders como componentes plugáveis. Codificadores de texto, codificadores de falante, codificadores de tom e codificadores de energia são todos construídos por meio de registros, de modo que a troca de um extrator de características ou vocoder para outro é principalmente uma mudança de configuração.

Isso torna o repositório bem adequado para:

Configurações de múltiplos falantes e clonagem de voz
Tarefas ricas em prosódia (canto, fala emocional)
Experimentação rápida com diferentes pilhas de características front-end

A mesma filosofia se aplica a modelos de difusão, agendadores (schedulers) e otimizadores, que também são construídos a partir de construtores baseados em registros.