期間限定オファー- 年間50％OFF30m 00s利用する

ソリューション

エンタープライズ

営業に問い合わせ始める

AI translated日本語 English

2025年11月20日リサーチ

Fish-Speechのご紹介：次世代マルチリンガルTTS

Shijia Liao, Chief Scientist

Fish-Speechのご紹介：次世代マルチリンガルTTS

要点

Fish-Speechをご紹介します。これは最先端（SoTA）のTransformerベースの自己回帰型マルチリンガルTTSです。
安定した自然な韻律を実現するため、革新的なデュアルARアーキテクチャを採用しています。
表現力豊かな音声を生成するため、コードブック利用率がほぼ100%のFirefly-GANボコーダーを使用しています。
72万時間のデータで学習されており、リアルタイムAIエージェント向けに構築されています。

技術論文: https://arxiv.org/abs/2411.01156

Fish-Speechは、LLMの推論能力を音声パイプラインに直接取り入れた新しいマルチリンガル・テキスト読み上げシステムです。脆弱な「綴りから音素への変換ルール（G2P）」に依存するのではなく、言語モデルを使用してテキストをネイティブに理解するため、多音字の表現、混在言語のコンテンツ、文脈が重要な入力の処理において、従来よりもはるかに優れています。

デュアルARアーキテクチャ

このシステムは、高レベルな言語構造のためのSlow Transformerと、音響的な詳細のためのFast Transformerを使用しています。この2段階のプロセスにより、生成が安定し、コードブックの利用率が向上し、拡散モデルに伴うレイテンシが解消されます。KVキャッシュやその他の最適化により、Fish-Speechは約150msのファーストパケット・レイテンシで応答できるため、対話型エージェントに最適です。

Firefly-GANボコーダー

オーディオレイヤーでは、Firefly-GANボコーダーがdepthwise/dilated畳み込みとgrouped scalar vector quantizationを組み合わせています。この設計により、ほぼ完全なコードブック利用率を達成し、極めて高いオーディオ品質を維持しながら、感情豊かで多言語の合成を効率的に処理します。

大規模な学習

Fish-Speechは、主要な言語族を網羅する72万時間のマルチリンガル音声で学習されました。バランスの取れたデータセットにより、言語、アクセント、言語混在シナリオを問わず、一貫した品質を維持できます。

音声クローニングの品質

このシステムは、単語誤り率（WER）、話者の類似性、MOSにおいて主要なパフォーマンスを達成しており、強力なベースラインを上回り、WERにおいては正解のトランスクリプトさえも凌駕しています。音色、韻律、アイデンティティを高い忠実度で保持します。

試してみる

Fish-Speechは以下でオープンソースとして公開されています：

GitHub: https://github.com/fishaudio/fish-speech
デモ: https://fish.audio

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

Shijia Liaoの他の記事を読む

リアルに感じる声を作成する

今日から最高品質のオーディオを生成し始めましょう。

無料でサインアップ

すでにアカウントをお持ちですか？ログイン

Last Updates

Fish Audio STT — Fish Audioでポッドキャストを文字起こしする

2026年3月27日ポッドキャスト文字起こし

ポッドキャスト文字起こしツール — Fish Audioでポッドキャストを文字起こしする方法

Sabrina ShuSupport & Marketing Specialist

クリエイティブチームに最適なAI TTS！Fish Audioチームプランの解説

2026年3月19日ガイド

クリエイティブチームに最適なAI TTS！Fish Audioのチームプランを徹底解説

Sabrina ShuSupport & Marketing Specialist

「広告、ゲーム、ポッドキャスト向けのロイヤリティフリーAI背景音楽」の未来的テキスト

2026年3月15日ガイド

広告、ゲーム、ポッドキャスト向けのロイヤリティフリーAI背景音楽

Kyle CuiAI Systems Engineer

Recommended

Fish Audio STT — Fish Audioでポッドキャストを文字起こしする

2026年3月27日ポッドキャスト文字起こし

ポッドキャスト文字起こしツール — Fish Audioでポッドキャストを文字起こしする方法

Sabrina ShuSupport & Marketing Specialist

クリエイティブチームに最適なAI TTS！Fish Audioチームプランの解説

2026年3月19日ガイド

クリエイティブチームに最適なAI TTS！Fish Audioのチームプランを徹底解説

Sabrina ShuSupport & Marketing Specialist

Fish Audio S2のインラインタグと単語レベルの音声制御の概要

2026年3月12日ガイド

Fish Audio S2！単語レベルでの細やかなAI音声制御

Sabrina ShuSupport & Marketing Specialist

Fish Audio S2の概要

2026年3月9日オープンソース

Fish AudioがS2をオープンソース化：きめ細かな制御と商用レベルのストリーミングを実現

Shijia LiaoChief Scientist

SAM Audioを使って音源分離を行う方法：ステップ・バイ・ステップ・ガイド

2026年1月30日チュートリアル

SAM Audioを使って音源分離を行う方法：ステップ・バイ・ステップ・ガイド

James DingML Engineer

Fish Audio S1 のリリース

2025年11月20日リサーチ

Fish Audio S1 リリース：最先端のテキスト読み上げ（TTS）オーディオ基盤モデル

Zhizhuo ZhouML Researcher