音声拡散モデル (Audio Diffusion Models)

主なポイント
- 音声生成のためのオープンソースフレームワーク、Fish Diffusion をリリースしました。
- Fish Diffusion は TTS、SVC、SVS に役立ちます。
GitHub: https://github.com/fishaudio/fish-diffusion
基本原則
その核心として、このリポジトリはモジュール性を重視して構築されています:
- 音響モデルは入れ替え可能であること(拡散モデル、Grad-TTS スタイル、GAN ベースなど)。
- コンディショニング信号(テキスト、話者、ピッチ、エネルギー)はモジュール化されていること。
統合されたモデリングスタック
このリポジトリのアーキテクチャはすべて、同様のパターンを共有しています:
- contents、speaker、pitches、energy、lengths などのキーを持つ構造化されたバッチを入力として受け取ります。
- シーケンス長からマスクを作成し、パディング部分での損失計算を回避します。
- スペクトログラム(拡散モデルの場合)または生の波形(GAN モデルの場合)を生成します。
拡散ベースのモデル(DiffSinger や GradTTS のパスなど)は、テキストと韻律(prosody)の融合表現を条件としたメルスペクトログラムの生成に焦点を当てています。HiFiSinger スタイルのモデルは波形を直接生成し、リアリズムを強制するために識別器(discriminator)に依存します。これらの違いにもかかわらず、それらは同じ設定とトレーニングの抽象化によって統合されています。
モジュール化されたコンディショニングとレジストリ
Fish Diffusion は、エンコーダーとボコーダーをプラグイン可能なコンポーネントとして扱います。テキストエンコーダー、話者エンコーダー、ピッチエンコーダー、エネルギーエンコーダーはすべてレジストリを通じて構築されるため、ある特徴抽出器やボコーダーから別のものへの切り替えは、主に設定の変更だけで済みます。
これにより、このリポジトリは以下の用途に適しています:
- マルチスピーカーおよびボイスクローニングのセットアップ
- 韻律を重視するタスク(歌唱、感情的な発話)
- 異なるフロントエンドの特徴スタックを用いた迅速な実験
同じ哲学が拡散モデル、スケジューラ、オプティマイザにも適用されており、これらもレジストリベースのビルダーから構築されます。
最新のフロンティア音声モデルを試す
最新の OpenAudio S1 を今すぐお試しいただけます:
- Fish Audio Playground (S1): https://fish.audio
- S1-mini on Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.
Shijia Liaoの他の記事を読む

