Modelos de Difusão de Áudio
30 de nov. de 2024

Principais Conclusões
- Lançamos o Fish Diffusion, um framework de código aberto para geração de áudio
- O Fish Diffusion é útil para TTS, SVC e SVS
GitHub: https://github.com/fishaudio/fish-diffusion
Princípio Central
Em sua essência, o repositório é construído em torno da modularidade:
- Modelos acústicos devem ser intercambiáveis (difusão, estilo Grad-TTS, baseados em GAN).
- Sinais de condicionamento (texto, falante, tom, energia) devem ser modulares.
Uma pilha de modelagem unificada
As arquiteturas no repositório compartilham padrões semelhantes:
- Elas recebem lotes estruturados com chaves como conteúdos, falante, tons, energia e comprimentos.
- Elas constroem máscaras a partir dos comprimentos das sequências para evitar o cálculo de perda em preenchimento (padding).
- Elas produzem espectrogramas (para modelos de difusão) ou formas de onda brutas (para modelos GAN).
Modelos baseados em difusão (como os caminhos DiffSinger/GradTTS) focam na geração de mel-espectrogramas condicionados a uma representação fundida de texto e prosódia. Modelos no estilo HiFiSinger vão direto para as formas de onda, contando com discriminadores para impor realismo. Apesar dessas diferenças, eles são unidos pelas mesmas abstrações de configuração e treinamento.
Condicionamento modular e registros
O Fish Diffusion trata codificadores e vocoders como componentes plugáveis. Codificadores de texto, codificadores de falante, codificadores de tom e codificadores de energia são todos construídos por meio de registros, de modo que a troca de um extrator de características ou vocoder para outro é principalmente uma mudança de configuração.
Isso torna o repositório bem adequado para:
- Configurações de múltiplos falantes e clonagem de voz
- Tarefas ricas em prosódia (canto, fala emocional)
- Experimentação rápida com diferentes pilhas de características front-end
A mesma filosofia se aplica a modelos de difusão, agendadores (schedulers) e otimizadores, que também são construídos a partir de construtores baseados em registros.
Experimente Nosso Modelo de Áudio de Fronteira Mais Recente
Você pode experimentar o OpenAudio S1 hoje mesmo:
- Fish Audio Playground (S1): https://fish.audio
- S1-mini no Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini
