오디오 확산 모델
2024년 11월 30일

주요 내용
- 오디오 생성을 위한 오픈 소스 프레임워크인 Fish Diffusion을 출시합니다
- Fish Diffusion은 TTS, SVC 및 SVS에 유용합니다
GitHub: https://github.com/fishaudio/fish-diffusion
핵심 원칙
이 저장소의 핵심은 모듈화를 중심으로 구축되었습니다:
- 음향 모델(확산 모델, Grad-TTS 스타일, GAN 기반 등)은 교체 가능해야 합니다.
- 컨디셔닝 신호(텍스트, 화자, 피치, 에너지)는 모듈식이어야 합니다.
통합 모델링 스택
이 저장소의 아키텍처는 모두 유사한 패턴을 공유합니다:
- contents, speaker, pitches, energy, lengths와 같은 키를 가진 구조화된 배치를 입력으로 받습니다.
- 시퀀스 길이를 기반으로 마스크를 생성하여 패딩에 대한 손실 계산을 방지합니다.
- 확산 모델의 경우 스펙트로그램을, GAN 모델의 경우 원시 파형(raw waveforms)을 생성합니다.
DiffSinger/GradTTS 경로와 같은 확산 기반 모델은 텍스트와 운율의 융합된 표현을 조건으로 멜 스펙트로그램을 생성하는 데 집중합니다. HiFiSinger 스타일 모델은 판별기(discriminator)를 통해 사실성을 강제하며 파형을 직접 생성합니다. 이러한 차이에도 불구하고, 이들은 동일한 구성 및 학습 추상화로 연결되어 있습니다.
모듈형 컨디셔닝 및 레지스트리
Fish Diffusion은 인코더와 보코더를 플러그형 컴포넌트로 취급합니다. 텍스트 인코더, 화자 인코더, 피치 인코더, 에너지 인코더는 모두 레지스트리를 통해 구축되므로, 특징 추출기나 보코더를 교체하는 것은 대부분 설정 변경만으로 가능합니다.
이러한 특성 덕분에 이 저장소는 다음과 같은 작업에 적합합니다:
- 다중 화자 및 음성 복제(voice cloning) 설정
- 운율이 중요한 작업 (노래, 감정 섞인 대화)
- 다양한 프론트엔드 특징 스택을 활용한 빠른 실험
동일한 철학이 확산 모델, 스케줄러, 옵티마이저에도 적용되며, 이들 또한 레지스트리 기반 빌더를 통해 구성됩니다.
최신 프론티어 오디오 모델을 사용해 보세요
지금 바로 OpenAudio S1을 체험해 보실 수 있습니다:
- Fish Audio 플레이그라운드 (S1): https://fish.audio
- Hugging Face의 S1-mini: https://huggingface.co/fishaudio/openaudio-s1-mini

Lengyue is the founder of Fish Audio and a cracked researching pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.
Lengyue의 더 많은 글 보기 >