期間限定オファー- 年間50%OFF利用する
2026年6月13日ガイド

AI Voice Design:1つのテキストプロンプトからカスタムボイスを作成

AI Voice Design:1つのテキストプロンプトからカスタムボイスを作成

普通の言葉で声を説明すれば、Fish AudioのVoice Designが約15秒で生成します。カスタムAIキャラクターボイスを作成しましょう。ローンチ期間中は無料です。

まだこの世に存在しない声が必要になることがあります。ゲームに登場する皮肉屋なロボットの相棒、ドキュメンタリーの温かみのあるナレーター、あるいはポッドキャストのイントロにふさわしい深夜ラジオのパーソナリティなど。ボイスライブラリを探しても、誰もが使っているような100種類程度の声しか見つかりませんし、ボイスクローニングをするには実在する人物の録音サンプルがまず必要になります。

Voice Designは、これとは異なる方法で解決します。Fish Audioで公開されたこの機能は、年齢、性別、アクセント、トーン、ペース、ムードなどをテキストで説明するだけで、完全にオリジナルのカスタムAIボイスを作成できます。説明を入力してから約15秒で、使用可能なボイスモデルが完成します。録音も、声優も、ライブラリをあさる必要もありません。

ローンチ期間中、Voice Designによるボイス生成は完全に無料です(通常は1回の生成につき2,000クレジットが必要です)。

今すぐVoice Designを試す →


AI Voice Designとは?

AIボイスデザインとは、音声サンプルの代わりに、書かれた説明文からカスタムのオリジナル合成音声を作成するプロセスです。「温かみがあり、少しハスキーな中年のナレーター、柔らかなアメリカ英語のアクセント」といったプロンプトを入力すると、AIがその説明に合致した、テキスト読み上げに使用できる真新しいボイスを生成します。

これは、既存の人物の声を録音から複製するボイスクローニングとは根本的に異なります。ボイスデザインで作成された声は、これまで存在しなかったものであり、世界のどこでも他の誰も使用していません。


Voice Designで自分だけのAIボイスを作成する方法(ステップ・バイ・ステップ)

説明文だけでAIボイスを作る方法に興味がありますか?最初から最後までの一連の流れを説明します。ボイス作成ページに移動し、Voice Designを選択してください。

Instant Voice Clone、Voice Design、Professional Voice Cloneのオプションが表示されたFish Audioのボイス作成ページ

ステップ1:希望する声を説明する

Fish Audio Voice Designのインターフェース — 作成したいAIボイスをテキストで説明

説明ボックスに、イメージしている声を書き込みます。具体的であればあるほど、より良い結果が得られます。以下の要素を盛り込んでみてください:

  • 年齢と性別 — 「30代後半の女性」
  • アクセント — 「柔らかなアメリカ英語のアクセント」「軽やかなイギリス英語のイントネーション」
  • トーンと質感 — 「ハスキーな」「明るい」「少ししゃがれた」
  • ペース — 「リラックスした落ち着いたペース」「速くてエネルギッシュな」
  • ムードと文脈 — 「静かな部屋で一人の聞き手に語りかけているような」

何から書き始めればいいか迷った場合は、温かみのある深夜ラジオのホスト、ドキュメンタリーのナレーター、子供向けの読み聞かせなどの内蔵スタータープロンプトを使用して、そこから編集してみてください。

オプションでプレビューテキスト(サンプルが読み上げるスクリプト)を追加することも、空白のままにしてシステムに文脈に沿ったサンプルを作成させることもできます。準備ができたら、**「サンプルを生成(Generate Samples)」**をクリックします。通常は2,000クレジットかかりますが、ローンチ期間中は無料です。

ステップ2:生成された2つのボイスサンプルを比較して選択する

Fish Audio Voice Designで生成された2つのAIボイスサンプルから選択

Voice Designは、プロンプトから2つの異なるボイスサンプルを生成します。両方を再生して比較し、イメージに合う方を選択してください。もしイメージと違う場合は、説明を微調整して**「サンプルを再生成(Re-generate Samples)」**をクリックしてください。ローンチ期間中は再生成にコストがかからないため、頭の中にある声にぴったり一致するまで調整できます。

ステップ3:自分のボイスモデルとして保存する

Fish Audioでボイスの詳細を設定してカスタムAIボイスモデルを保存

「続行(Continue)」をクリックして、選択したサンプルを再利用可能なボイスモデルに変換します:

  • 名前とカバー画像 — ボイスにアイデンティティを与えます
  • タグ — 性別、年齢、ボイススタイル(温かい、滑らか、低い、ささやき声など)
  • ユースケース — 会話、ナレーション、キャラクターボイス、SNS、教育、広告、エンターテインメントなど

Fish AudioでAIボイスの公開設定を公開、限定公開、非公開に設定

次に、誰がそのボイスを使用できるかを選択します:

  • 公開(Public) — 発見ページに掲載され、誰でも検索して使用できます
  • 限定公開(Unlisted) — 発見ページには表示されませんが、直接リンクを知っている人と共有できます
  • 非公開(Private) — あなただけが表示・使用できます

そのボイスが実在の特定人物になりすますものではないことを確認し、**「ボイスを作成(Create Voice)」**をクリックすれば完了です。カスタムAIボイスがライブラリに保存され、あらゆるテキスト読み上げプロジェクトで使用できるようになります。S2の単語レベルのインラインタグを使用すれば、各セリフのデリバリーを正確に演出することも可能です。

スタータープロンプトから始める → — ローンチ期間中は生成無料です。


より良いVoice Designプロンプトを書く方法

ボイスの品質は説明文の質に左右されます。平凡な結果と完璧な結果を分けるポイントを紹介します。

こちらのスタータープロンプトを例に見てみましょう:

「30代後半の深夜ラジオのパーソナリティ。温かく親密で、柔らかくハスキーな声。リラックスして落ち着いたペースで、時折穏やかな笑みを交え、静かな部屋で一人の聞き手に語りかけているような雰囲気。」

このプロンプトが優れている理由:

  1. ペルソナを固定している(「深夜ラジオのパーソナリティ」) — モデルが即座にキャラクターを把握できる役割を与えています。これは10個の形容詞を並べるよりも強力です。

  2. 具体的な声の質感を積み重ねている(「柔らかくハスキーな」) — 「良い」や「素敵な」といった曖昧な言葉よりも、質感を表現する言葉の方が効果的です。

  3. 話し方を指定している(「リラックスして落ち着いたペースで、時折穏やかな笑みを交え」) — ペースや癖が声に生命を吹き込みます。

  4. シーンを設定している(「静かな部屋で一人の聞き手に語りかけているような」) — 文脈を設定することで、単一の形容詞よりも親密さやエネルギーをうまく形作ることができます。

弱いプロンプト:「心地よくクリアな女性の声。

強いプロンプト:「明るいオーストラリア英語のアクセントを持つ20代の陽気なツアーガイド。速く遊び心のあるペースで、常に笑顔で話しているような声。

1つのペルソナ、3〜4つの感覚的な詳細、1つのシーン。これがフォーミュラ(公式)です。


オリジナルキャラクターのために作られたキャラクターボイス生成ツール

ゲーム、アニメーション、オーディオブック、オーディオドラマ、バーチャルコンパニオンなどのキャラクターを作成する場合、Voice Designは**「すべての声がオリジナルである」**という決定的な利点を持つキャラクターボイス生成ツールとして機能します。

ライブラリにある既存の声は何千人ものユーザーに共有されています。あなたの作品の悪役が、誰かの瞑想アプリと同じ声であるべきではありません。また、架空のキャラクターのために実在の人物の声をクローニングすることは、同意やライセンスの問題を引き起こします。デザインされた声なら、その両方を回避できます。実在の人物の肖像が背後にない、あなたのキャラクターのためだけに作られた声です。

アイデアを刺激するいくつかのプロンプトの方向性を紹介します(現実的なものからファンタジーまで):

  • 「古代の、砂利を噛むような声のドラゴン。ゆっくりとした轟くような話し方で、演劇的な威圧感がある」
  • 「ハイテンションな10代の少年の発明家。早口で、興奮すると少し声が裏返る」
  • 「穏やかな老司書。ささやくような柔らかいトーンで、意図的な間を置く」
  • 「50代のハードボイルドな刑事。低くしゃがれたモノトーンで、世慣れた、乾いた話し方」
  • 「濃厚なイタリア語アクセントの陽気な料理番組ホスト。声が大きく表現力豊かで、常に笑い出しそうな雰囲気」
  • 「不具合のある船内AI:平坦で正確、不気味なほど冷静で、ぶつ切りでロボットのようなリズム」

生成し、2つのサンプルを比較し、微調整して保存する。これだけで、午後のお茶の時間にオリジナルのキャスト全員を揃えることができます。その後、マルチスピーカー・テキスト読み上げで彼らを同じシーンに登場させたり、他の人が作成したAIキャラクターボイスをブラウズしてインスピレーションを得たりすることもできます。


Voice Design vs. ボイスクローニング:どちらを使うべき?

Fish Audioでは現在、ボイスを作成する3つの方法を提供しており、それぞれ用途が異なります。

Voice DesignInstant Voice CloneProfessional Voice Clone
入力テキストによる説明約10秒の音声スタジオ品質の録音
時間約15秒約1分1〜2時間
用途オリジナルキャラクター、新しい声既存の録音の迅速な複製実在の人物の検証済みスタジオ級クローン
既存の声か?いいえ — ゼロから作成はいはい — 所有権の検証あり

判断の目安:その声がまだ存在しないなら、デザインする。存在するなら、クローンする。

設計によるオリジナリティ

デザインされた声には、特筆すべきもう一つの利点があります。それは、**誰からも「借りていない」**ということです。Voice Designのすべての出力は、個人の録音からではなく、説明文から生成されます。そして、Fish Audioで作成されるすべてのボイスは、実在の特定人物になりすますものではないことを確認するプロセスを通過する必要があります。これは、あなたのプロジェクトを同意や肖像権の問題から守るために設計されたワークフローです。

そして、必要な声が実在の人物(あなた自身や声優など)のものである場合、私たちはその境界線を曖昧にするのではなく、所有権を明確にすべきだと考えています。世界中の声優がまさにこれを求めています。AI時代において、自分の声がどのように使用されるかについての同意と公正な報酬です。これが、新しいProfessional Voice Cloneの背後にある考え方です。リアルタイムの所有権検証に基づいた、実在の人物の検証済みスタジオ品質クローンであり、オプションで商用リリースやボイス所有者への収益分配も可能です。これは、ボイス所有者と、その声を利用したい人々との間のよりクリーンな取引の始まりです。これについては、今後の深掘り記事で詳しくお伝えします。


15秒で最初のボイスをデザインする

理想の声を手に入れるために、これまではオーディションを行ったり、ライブラリを掘り返したり、「妥協できる範囲」で我慢したりする必要がありました。しかしこれからは、質の高い文章を1つ書くだけで済みます。

最初のボイスを無料でデザインする → — ローンチ期間中は無料です。

Sabrina Shu

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Sabrina Shuの他の記事を読む

リアルに感じる声を作成する

今日から最高品質のオーディオを生成し始めましょう。

すでにアカウントをお持ちですか? ログイン