期間限定オファー- 年間50％OFF30m 00s利用する

ソリューション

エンタープライズ

営業に問い合わせ始める

AI translated日本語 English

2025年11月20日研究

音声拡散モデル (Audio Diffusion Models)

Shijia Liao, Chief Scientist

音声拡散モデル (Audio Diffusion Models)

主なポイント

音声生成のためのオープンソースフレームワーク、Fish Diffusion をリリースしました。
Fish Diffusion は TTS、SVC、SVS に役立ちます。

GitHub: https://github.com/fishaudio/fish-diffusion

基本原則

その核心として、このリポジトリはモジュール性を重視して構築されています：

音響モデルは入れ替え可能であること（拡散モデル、Grad-TTS スタイル、GAN ベースなど）。
コンディショニング信号（テキスト、話者、ピッチ、エネルギー）はモジュール化されていること。

統合されたモデリングスタック

このリポジトリのアーキテクチャはすべて、同様のパターンを共有しています：

contents、speaker、pitches、energy、lengths などのキーを持つ構造化されたバッチを入力として受け取ります。
シーケンス長からマスクを作成し、パディング部分での損失計算を回避します。
スペクトログラム（拡散モデルの場合）または生の波形（GAN モデルの場合）を生成します。

拡散ベースのモデル（DiffSinger や GradTTS のパスなど）は、テキストと韻律（prosody）の融合表現を条件としたメルスペクトログラムの生成に焦点を当てています。HiFiSinger スタイルのモデルは波形を直接生成し、リアリズムを強制するために識別器（discriminator）に依存します。これらの違いにもかかわらず、それらは同じ設定とトレーニングの抽象化によって統合されています。

モジュール化されたコンディショニングとレジストリ

Fish Diffusion は、エンコーダーとボコーダーをプラグイン可能なコンポーネントとして扱います。テキストエンコーダー、話者エンコーダー、ピッチエンコーダー、エネルギーエンコーダーはすべてレジストリを通じて構築されるため、ある特徴抽出器やボコーダーから別のものへの切り替えは、主に設定の変更だけで済みます。

これにより、このリポジトリは以下の用途に適しています：

マルチスピーカーおよびボイスクローニングのセットアップ
韻律を重視するタスク（歌唱、感情的な発話）
異なるフロントエンドの特徴スタックを用いた迅速な実験

同じ哲学が拡散モデル、スケジューラ、オプティマイザにも適用されており、これらもレジストリベースのビルダーから構築されます。

最新のフロンティア音声モデルを試す

最新の OpenAudio S1 を今すぐお試しいただけます：

Fish Audio Playground (S1): https://fish.audio
S1-mini on Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

Shijia Liaoの他の記事を読む

リアルに感じる声を作成する

今日から最高品質のオーディオを生成し始めましょう。

無料でサインアップ

すでにアカウントをお持ちですか？ログイン

Last Updates

Fish Audio STT — Fish Audioでポッドキャストを文字起こしする

2026年3月27日ポッドキャスト文字起こし

ポッドキャスト文字起こしツール — Fish Audioでポッドキャストを文字起こしする方法

Sabrina ShuSupport & Marketing Specialist

クリエイティブチームに最適なAI TTS！Fish Audioチームプランの解説

2026年3月19日ガイド

クリエイティブチームに最適なAI TTS！Fish Audioのチームプランを徹底解説

Sabrina ShuSupport & Marketing Specialist

「広告、ゲーム、ポッドキャスト向けのロイヤリティフリーAI背景音楽」の未来的テキスト

2026年3月15日ガイド

広告、ゲーム、ポッドキャスト向けのロイヤリティフリーAI背景音楽

Kyle CuiAI Systems Engineer

Recommended

Fish Audio STT — Fish Audioでポッドキャストを文字起こしする

2026年3月27日ポッドキャスト文字起こし

ポッドキャスト文字起こしツール — Fish Audioでポッドキャストを文字起こしする方法

Sabrina ShuSupport & Marketing Specialist

クリエイティブチームに最適なAI TTS！Fish Audioチームプランの解説

2026年3月19日ガイド

クリエイティブチームに最適なAI TTS！Fish Audioのチームプランを徹底解説

Sabrina ShuSupport & Marketing Specialist

Fish Audio S2のインラインタグと単語レベルの音声制御の概要

2026年3月12日ガイド

Fish Audio S2！単語レベルでの細やかなAI音声制御

Sabrina ShuSupport & Marketing Specialist

Fish Audio S2の概要

2026年3月9日オープンソース

Fish AudioがS2をオープンソース化：きめ細かな制御と商用レベルのストリーミングを実現

Shijia LiaoChief Scientist

SAM Audioを使って音源分離を行う方法：ステップ・バイ・ステップ・ガイド

2026年1月30日チュートリアル

SAM Audioを使って音源分離を行う方法：ステップ・バイ・ステップ・ガイド

James DingML Engineer

Fish Audio S1 のリリース

2025年11月20日リサーチ

Fish Audio S1 リリース：最先端のテキスト読み上げ（TTS）オーディオ基盤モデル

Zhizhuo ZhouML Researcher