2026年6月13日ガイド

AIボイスデザイン：1つのテキストプロンプトからカスタムボイスを作成する

Sabrina Shu, Support & Marketing Specialist

声を普通の言葉で説明するだけで、Fish Audioのボイスデザイン（Voice Design）が約15秒で生成します。カスタムのAIキャラクターボイスを作成しましょう。リリース期間中は無料です。

まだ存在しない声が必要な場合があります。例えば、ゲームの皮肉屋なロボットの相棒、ドキュメンタリーの温かいナレーター、あるいはポッドキャストのイントロの深夜ラジオのホストなどです。ボイスライブラリを探しても、他の誰もが使っているのと同じ数百の声しか見つかりません。また、ボイスクローニングには、まず実在の人物のサンプル録音が必要です。

Voice Designはこの問題を別の方法で解決します。Fish Audioで公開されたこの機能では、年齢、性別、アクセント、トーン、テンポ、気分をテキストで説明するだけで、完全にオリジナルのカスタムAIボイスを作成できます。約15秒で、その説明を使用可能なボイスモデルに変換します。録音も、声優も、ライブラリ探しも不要です。

リリース期間中、Voice Designによる音声生成は完全に無料です（通常は1生成あたり2,000クレジット）。

今すぐVoice Designを試す →

AIボイスデザインとは？

AIボイスデザインとは、音声サンプルの代わりに書かれた説明文から、カスタムのオリジナル合成音声を作成するプロセスです。声がどのように聞こえるべきかを説明するプロンプト（例：「温かく、少しハスキーな30代のナレーターで、穏やかなアメリカ英語のアクセント」）を入力すると、AIがその説明に一致する新しい音声を生成し、テキスト読み上げ（TTS）ですぐに使用できるようになります。

これにより、ボイスデザインは、既存の人物の声を録音から複製するボイスクローニングとは根本的に異なります。ボイスデザインで作成した声は、これまでどこにも存在しなかったものであり、他の誰も使用していません。

Voice Designで自分だけのAIボイスを作成する方法（ステップバイステップ）

説明文だけでAIボイスを作る方法に興味がありますか？最初から最後までの一連の流れをご紹介します。Create Voice（音声作成）ページへ移動し、Voice Designを選択してください。

Instant Voice Clone、Voice Design、Professional Voice Cloneのオプションが表示されたFish Audioの音声作成ページ

ステップ 1：欲しい声を説明する

Fish AudioのVoice Designインターフェース — 欲しいAIボイスをプレーンテキストで説明する

説明ボックスに、想像している声を書き込みます。具体的であればあるほど良い結果が得られます。以下の要素を盛り込んでみてください：

年齢と性別 — 「30代後半の女性」
アクセント — 「穏やかなアメリカ英語のアクセント」、「軽やかなイギリス英語のイントネーション」
トーンと質感 — 「ハスキーな」、「明るい」、「少しざらついた」
テンポ — 「リラックスして急がない」、「速くてエネルギッシュな」
気分とコンテキスト — 「静かな部屋で一人の聞き手に語りかけているような」

何を書けばいいか迷った時は、「温かい深夜ラジオのホスト」「ドキュメンタリーのナレーター」「子供向け物語の読み聞かせ」などの内蔵スタータープロンプトを使用して、そこから編集してみてください。

オプションでプレビューテキスト（サンプルが話すスクリプト）を追加することも、空のままにしてシステムに文脈に合ったサンプルを作成させることもできます。準備ができたら、**Generate Samples（サンプル生成）**を押します。通常、生成には2,000クレジットかかりますが、リリース期間中は無料です。

ステップ 2：生成された2つの音声サンプルを比較して1つ選ぶ

Fish AudioのVoice Designで生成された2つのAI音声サンプルを選択する様子

Voice Designは、プロンプトから2つの異なる音声サンプルを生成します。両方を再生して比較し、最適な方を選択してください。納得がいかない場合は、説明を微調整して**Re-generate Samples（再生成）**を押します。リリース期間中は何度繰り返しても無料ですので、頭の中にある声にぴったり重なるまで洗練させてください。

ステップ 3：自分のボイスモデルとして保存する

Fish AudioでカスタムAIボイスモデルの詳細を保存する様子

Continue（続行）を押し、選んだサンプルを再利用可能なボイスモデルにします：

名前とカバー画像 — 音声にアイデンティティを与えます
タグ — 性別、年齢、ボイススタイル（温かい、滑らかな、深い、吐息混じりの...）
ユースケース — 会話、ナレーション、キャラクターボイス、ソーシャルメディア、教育、広告、エンターテインメントなど

Fish AudioでAIボイスの公開設定をPublic、Unlisted、Privateに設定する様子

次に、使用できる範囲を選択します：

Public（公開） — 発見ページに掲載され、誰でも見つけて使用可能
Unlisted（非公開） — 発見ページからは隠され、直接リンクで共有可能
Private（プライベート） — 自分だけが閲覧・使用可能

その声が実在の特定人物になりすましていないことを確認し、**Create Voice（音声作成）**をクリックすれば完了です。カスタムAIボイスがライブラリに保存され、あらゆるテキスト読み上げプロジェクトで使用できるようになります。S2の単語レベルのインラインタグを使えば、各セリフの届け方を正確に指示することも可能です。

スタータープロンプトから始める → — リリース期間中は生成無料。

より良いボイスデザインプロンプトを書く方法

声の品質は、説明の質に左右されます。ありふれた結果と完璧な結果を分けるポイントをご紹介します。

このスタータープロンプトを例に見てみましょう：

「温かく親密な、30代後半の深夜ラジオのホスト。柔らかくハスキーな声。リラックスしたゆったりとしたテンポで、時折穏やかな笑いを含み、静かな部屋で一人の聞き手に語りかけているような感じ。」

このプロンプトが優れている点：

ペルソナを固定している（「深夜ラジオのホスト」） — モデルが即座に特徴づけられる役割であり、10個の形容詞を並べるよりも強力です。
具体的な声の質を重ねている（「柔らかくハスキー」） — 「良い」や「素敵な」といった曖昧な言葉よりも、質感を表す言葉の方が効果的です。
話し方を指定している（「リラックスしたゆったりとしたテンポで、時折穏やかな笑いを含む」） — テンポや癖が声に命を吹き込みます。
シーンを設定している（「静かな部屋で一人の聞き手に語りかけているような」） — 文脈は、単一の形容詞よりも親密さやエネルギーをより良く形作ります。

弱いプロンプト：「心地よく明瞭な女性の声。」

強いプロンプト：「明るいオーストラリア訛りのある20代の陽気なツアーガイド。速く遊び心のあるテンポで、常に笑顔で話しているような声。」

1つのペルソナ、3〜4つの感覚的な詳細、1つのシーン。これが成功のフォーミュラです。

オリジナルキャラクターのために作られたキャラクターボイス生成器

ゲーム、アニメーション、オーディオブック、オーディオドラマ、またはバーチャルコンパニオンなどのキャラクターを作成する場合、Voice Designはキャラクターボイス生成器として決定的な利点を持っています。それは、**「すべての声がオリジナルである」**ということです。

ライブラリにある声は何千人ものユーザーと共有されています。あなたの悪役が、誰かの瞑想アプリと同じ声であるべきではありません。また、架空のキャラクターのために実在の人物の声をクローンすることは、同意やライセンスの問題を引き起こします。デザインされた声は、その両方を回避します。実在の人物の似姿を持たない、あなたのキャラクターのためだけに作られた声です。

アイデアを刺激するいくつかのプロンプトの方向性（日常的なものから幻想的なものまで）：

「古代の、砂利を噛むような声のドラゴン。ゆっくりと轟くような話し方で、演劇的な威圧感がある」
「ハイテンションな10代の少年の発明家。早口で、興奮すると少し声が裏返る」
「穏やかな老司書。ささやくような柔らかなトーンと、意図的な間を置く」
「50代のハードボイルドな探偵。低い砂利のようなモノトーンで、世慣れた、乾いた話し方」
「厚いイタリア訛りのある陽気な料理番組のホスト。声が大きく表情豊かで、常に笑い出す寸前のよう」
「グリッチの発生した宇宙船のAI：平坦で正確、落ち着きすぎていて、ぶつ切りでロボットのようなリズム」

生成し、2つのサンプルを比較し、洗練させ、保存する。午後のひとときでオリジナルのキャスト全員を揃えることができます。その後、マルチスピーカー・テキスト読み上げで彼らを同じシーンに登場させたり、他のユーザーが作成したAIキャラクターボイスを閲覧してインスピレーションを得たりしてください。

Voice Design vs. Voice Cloning：どちらを使うべき？

Fish Audioでは現在、声を作成する3つの方法を提供しており、それぞれ異なる用途に適しています。

	Voice Design	Instant Voice Clone	Professional Voice Clone
入力	テキストによる説明	約10秒の音声	スタジオ品質の録音
所要時間	約15秒	約1分	1〜2時間
最適	オリジナルキャラクター＆全く新しい声	既存の録音を素早く再現	実在人物の検証済みスタジオ級クローン
既存の声か？	いいえ — ゼロから作成	はい	はい — 所有権の確認済み

判断の目安：その声がまだ存在しないならデザインし、存在するならクローンする。

デザインによるオリジナリティ

デザインされた声には、特筆すべきもう一つの利点があります。それは**「誰からも借りていない」**ということです。Voice Designの出力はすべて、個人の録音からではなく説明文から生成されます。また、Fish Audioで作成されるすべての音声は、実在の特定人物になりすましていないことを確認するプロセスを通過する必要があります。これは、プロジェクトを同意や肖像権の懸念から遠ざけるために設計されたワークフローです。

そして、必要な声が実在の人物（あなた自身や声優）のものである場合、私たちはその境界線を曖昧にするのではなく、所有権を明示的にすることが正解だと考えています。世界中の声優がまさにこれを求めています。AI時代において自分の声がどのように使用されるかについての同意と公正な報酬です。それが私たちの新しいProfessional Voice Cloneの背後にある考え方です。これは、リアルタイムの所有権確認に基づいて構築された実在人物の検証済みスタジオ品質クローンであり、オプションで商業リリースや声の所有者への収益分配も可能です。これは、声の所有者と声を利用したい人との間の、よりクリーンな取引の始まりです。これについては今後の深掘り記事で詳しくお伝えします。

15秒で最初の声をデザインする

「適切な声」を手に入れるには、かつては俳優のオーディションをしたり、ライブラリを掘り起こしたり、「妥協できる範囲」で我慢したりする必要がありました。今では、優れた文章を1つ書くだけで済みます。

無料で最初の声をデザインする → — リリース期間中は無料。

よくある質問

AIボイスデザインとは何ですか？

AIボイスデザインは、音声録音ではなくテキストの説明からオリジナルの合成音声を作成することです。年齢、アクセント、トーン、テンポなどの属性を説明すると、AIがその説明に一致する新しい音声を生成し、テキスト読み上げに使用できるようになります。

Voice Designは無料ですか？

はい。リリース期間中、Fish AudioのVoice Designでの音声生成は完全に無料です。標準価格は1生成あたり2,000クレジットです。ボイスモデルの作成と保存も含まれています。

ボイスデザインとボイスクローニングの違いは何ですか？

ボイスクローニングは、音声サンプルから実在の人物の声を複製します。ボイスデザインは、書かれた説明だけで、これまで存在しなかった声を生成します。クローニングは実在の声を再現するためのものであり、デザインはオリジナルの声を発明するためのものです。

デザインした声を商用利用できますか？

デザインされた声は実在の人物の録音に基づかないオリジナル作品であるため、コンテンツ制作プロジェクトにおいてクリーンな選択肢となります。各音声は実在の特定人物になりすましていないことの確認が必要であり、使用はFish Audioの利用規約に従う必要があります。

良いボイスデザインプロンプトを書くにはどうすればいいですか？

声をペルソナ（例：「ドキュメンタリーのナレーター」）で固定し、3〜4つの具体的な声の質（ハスキー、明るい、ざらついた）を追加し、テンポを指定し、話し方の文脈を説明してください。具体的で感覚的な説明は、曖昧な形容詞よりも一貫して優れた結果をもたらします。

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Sabrina Shuの他の記事を読む