Modelos de Difusão de Áudio

30 de nov. de 2024

Modelos de Difusão de Áudio

Principais Conclusões

  • Lançamos o Fish Diffusion, um framework de código aberto para geração de áudio
  • O Fish Diffusion é útil para TTS, SVC e SVS

GitHub: https://github.com/fishaudio/fish-diffusion

Princípio Central

Em sua essência, o repositório é construído em torno da modularidade:

  1. Modelos acústicos devem ser intercambiáveis (difusão, estilo Grad-TTS, baseados em GAN).
  2. Sinais de condicionamento (texto, falante, tom, energia) devem ser modulares.

Uma pilha de modelagem unificada

As arquiteturas no repositório compartilham padrões semelhantes:

  • Elas recebem lotes estruturados com chaves como conteúdos, falante, tons, energia e comprimentos.
  • Elas constroem máscaras a partir dos comprimentos das sequências para evitar o cálculo de perda em preenchimento (padding).
  • Elas produzem espectrogramas (para modelos de difusão) ou formas de onda brutas (para modelos GAN).

Modelos baseados em difusão (como os caminhos DiffSinger/GradTTS) focam na geração de mel-espectrogramas condicionados a uma representação fundida de texto e prosódia. Modelos no estilo HiFiSinger vão direto para as formas de onda, contando com discriminadores para impor realismo. Apesar dessas diferenças, eles são unidos pelas mesmas abstrações de configuração e treinamento.

Condicionamento modular e registros

O Fish Diffusion trata codificadores e vocoders como componentes plugáveis. Codificadores de texto, codificadores de falante, codificadores de tom e codificadores de energia são todos construídos por meio de registros, de modo que a troca de um extrator de características ou vocoder para outro é principalmente uma mudança de configuração.

Isso torna o repositório bem adequado para:

  • Configurações de múltiplos falantes e clonagem de voz
  • Tarefas ricas em prosódia (canto, fala emocional)
  • Experimentação rápida com diferentes pilhas de características front-end

A mesma filosofia se aplica a modelos de difusão, agendadores (schedulers) e otimizadores, que também são construídos a partir de construtores baseados em registros.

Experimente Nosso Modelo de Áudio de Fronteira Mais Recente

Você pode experimentar o OpenAudio S1 hoje mesmo:

Crie vozes que parecem reais

Comece a gerar áudio da mais alta qualidade hoje.

Já tem uma conta? Entrar

Compartilhar este artigo


Lengyue

LengyueX

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

Leia mais de Lengyue >

Artigos Recentes

Ver tudo >
Modelos de Difusão de Áudio - Fish Audio Blog