Fish-Speechのご紹介:次世代マルチリンガルTTS

要点
- Fish-Speechをご紹介します。これは最先端(SoTA)のTransformerベースの自己回帰型マルチリンガルTTSです。
- 安定した自然な韻律を実現するため、革新的なデュアルARアーキテクチャを採用しています。
- 表現力豊かな音声を生成するため、コードブック利用率がほぼ100%のFirefly-GANボコーダーを使用しています。
- 72万時間のデータで学習されており、リアルタイムAIエージェント向けに構築されています。
技術論文: https://arxiv.org/abs/2411.01156
Fish-Speechは、LLMの推論能力を音声パイプラインに直接取り入れた新しいマルチリンガル・テキスト読み上げシステムです。脆弱な「綴りから音素への変換ルール(G2P)」に依存するのではなく、言語モデルを使用してテキストをネイティブに理解するため、多音字の表現、混在言語のコンテンツ、文脈が重要な入力の処理において、従来よりもはるかに優れています。
デュアルARアーキテクチャ
このシステムは、高レベルな言語構造のためのSlow Transformerと、音響的な詳細のためのFast Transformerを使用しています。この2段階のプロセスにより、生成が安定し、コードブックの利用率が向上し、拡散モデルに伴うレイテンシが解消されます。KVキャッシュやその他の最適化により、Fish-Speechは約150msのファーストパケット・レイテンシで応答できるため、対話型エージェントに最適です。
Firefly-GANボコーダー
オーディオレイヤーでは、Firefly-GANボコーダーがdepthwise/dilated畳み込みとgrouped scalar vector quantizationを組み合わせています。この設計により、ほぼ完全なコードブック利用率を達成し、極めて高いオーディオ品質を維持しながら、感情豊かで多言語の合成を効率的に処理します。
大規模な学習
Fish-Speechは、主要な言語族を網羅する72万時間のマルチリンガル音声で学習されました。バランスの取れたデータセットにより、言語、アクセント、言語混在シナリオを問わず、一貫した品質を維持できます。
音声クローニングの品質
このシステムは、単語誤り率(WER)、話者の類似性、MOSにおいて主要なパフォーマンスを達成しており、強力なベースラインを上回り、WERにおいては正解のトランスクリプトさえも凌駕しています。音色、韻律、アイデンティティを高い忠実度で保持します。
試してみる
Fish-Speechは以下でオープンソースとして公開されています:

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.
Shijia Liaoの他の記事を読む

