2026年1月22日ガイド

TikTokでテキスト読み上げ機能を使う方法：クリエイターのための完全チュートリアル

TikTokのテキスト読み上げ（TTS）機能は、入力したキャプションを音声に変換します。これにより、一言も録音することなく、AI音声にコンテンツをナレーションさせることができます。この機能は、数え切れないほどの動画でキャプションを読み上げたり、オチを言ったり、チュートリアルを解説したりする際におなじみの「TikTokボイス」として、プラットフォームを象徴する要素となっています。

カメラの前で話さずにナレーションを追加したい場合でも、視覚障害のある視聴者にとってのアクセシビリティを高めたい場合でも、あるいは単に定評のあるコンテンツスタイルを取り入れたい場合でも、TikTokのTTS機能は場所さえわかれば簡単に使用できます。このガイドでは、基本的な手順、音声の選択、一般的なトラブルシューティング、そしてTikTokの内蔵音声では不十分な場合の高度な代替手段について解説します。

TikTokのテキスト読み上げ機能とは

TikTokのテキスト読み上げ機能は、動画に追加したテキストオーバーレイを音声に変換します。AI生成された音声がキャプションを読み上げ、動画コンテンツと同期します。視聴者は画面上のテキストを見ると同時にその読み上げを聞くことができ、チュートリアル、ストーリーテリング、解説、アクセシビリティにおいて特に有用です。

この機能は2020年後半にリリースされ、人気が高まり続けています。UBCサウダー・スクール・オブ・ビジネスの研究によると、AI音声を使用しているクリエイターは、使用していないクリエイターよりも24%多く動画を制作しており、この機能が制作のハードルを大幅に下げていることが示唆されています。

TikTokでは、人気の高い「Jessie」（「TikTokボイス」や「Siriボイス」としばしば呼ばれます）から、Ghostfaceやディズニーをテーマにしたキャラクターなどのユニークなオプションまで、さまざまな言語、アクセント、キャラクタースタイルにわたる複数の音声オプションを提供しています。

ステップ1：動画を撮影またはアップロードする

まずは、TTSナレーションを付ける動画コンテンツを作成することから始めましょう。

TikTokを開き、画面下部中央の**「+」**ボタンをタップします。
新しく撮影するか、**「アップロード」**をタップしてカメラロールから既存の動画を選択します。
複数のクリップを使用する場合は、最初のトリミングやクリップの配置を済ませます。

動画に録音された音声が含まれている必要はありません。TTSは、無音の映像や背景音楽、あるいは既存の音声にナレーションを補足したい場合でも完璧に機能します。

ステップ2：動画にテキストを追加する

TTSはテキストオーバーレイを音声に変換するため、まずテキストを追加する必要があります。

撮影またはアップロード後、右側の編集メニューにある**「テキスト」**ボタンをタップします。
AI音声に読み上げさせたい言葉を入力します。
**「完了」**をタップして動画上にテキストを配置します。

テキストのコツ：

● テンポを良くするために、各テキストボックスは1〜2文に抑えましょう。

● 誤字脱字がないか注意深く確認してください。AIは入力された通りに読み上げます。

● 句読点は話し方に影響します。句点（。）は休止を作り、読点（、）は短い間を作り、疑問符（？）はイントネーションを調整します。

● 長いナレーションの場合は、複数のテキストボックスを作成し、それぞれにTTSを適用してください。

テキストの位置、フォント、色、サイズを調整できます。これらの視覚的な設定はTTSの音声には影響しませんが、視聴者が聞きながら読む際の視認性に影響します。

ステップ3：テキスト読み上げを適用する

ここからが本番です。

作成したテキストボックスをタップします。
表示されるメニューから**「テキスト読み上げ」**を選択します。
利用可能な音声オプションをブラウズします。
コンテンツのトーンに合った音声を選びます。
**「完了」**をタップして適用します。

これで、動画が再生されるときにAI音声がテキストを読み上げるようになります。結果をプレビューして、タイミングや音声の選択がコンテンツに合っているか確認しましょう。

複数のテキストボックスにTTSを適用する場合：

複数のテキストオーバーレイを作成した場合は、それらすべてに同じ音声を適用できます。

音声を選択した後、**「この動画のすべてのテキストに音声を適用」**というオプションを探します。
それをタップして、すべてのテキストボックスで同じTTS音声を使用します。

これにより時間を節約し、動画全体で一貫したナレーションを確保できます。

ステップ4：適切な音声を選択する

TikTokにはさまざまな音声カテゴリーがありますが、地域やアプリのバージョンによって利用できるものは異なります。

標準音声：

● Jessie — オリジナルの「TikTokボイス」、女性、クリアで少し明るい

● Joey — 男性音声、ユーモアやナレーションによく使われる

● Eddie — 特徴的なトーンを持つ男性音声

● Rocket — よりロボット的で特徴的なサウンド

● Alex, Chris, Taylor, Kendall — その他の音声キャラクター

キャラクターボイス：

● Ghostface — 映画『スクリーム』の悪役の声

● Stitch — 『リロ・アンド・スティッチ』より

● C-3PO, Stormtrooper — スター・ウォーズのキャラクター

● Chewbacca — 特徴的な唸り声ベースの音声

季節限定・特別音声：

● サンタクロース、ハロウィーンテーマの音声、その他期間限定のオプション

音声選択のコツ：

● 音声のトーンをコンテンツの雰囲気に合わせましょう。Jessieはカジュアルまたは明るい動画に適しており、Ghostfaceはドラマチックまたは不気味なテーマに合います。

● キャラクターボイスは注意を引きますが、教育的または解説的なコンテンツでは気が散る可能性があります。

● 決定する前に、各オプションをプレビューして複数の音声をテストしましょう。

● 人気のある音声は非常に認知度が高いため、目的によってはエンゲージメントにプラスにもマイナスにも働きます。

ステップ5：テキストの表示時間を設定する

TTSのテキストが表示され、消えるタイミングをコントロールします。

動画上のテキストボックスをタップします。
**「時間を設定」**を選択します（または画面下部のテキストタイムラインをドラッグします）。
動画のタイミングに合わせて開始点と終了点を調整します。

TTSの音声は、テキストが画面に表示されている間に再生されます。複数のテキストボックスがある場合は、タイミングをずらしてスムーズで流れるようなナレーションを作成しましょう。

タイミングのベストプラクティス：

● 視聴者が読み進めるのに十分な時間を与えましょう（音声があっても、多くの人は同時に読みます）。

● テキストの表示を関連するビジュアルに合わせましょう。

● 自然なペースを作るために、テキストボックスの間に短い隙間を空けましょう。

ステップ6：オーディオレベルを調整する

TTSの音量とBGMやその他の音声のバランスを整えます。

編集画面上部の**「楽曲を追加」**をタップします。
BGMを使用している場合は、**「音量」**をタップします。
TTSがはっきりと聞こえるように、元の音量または背景音を下げます。
確定する前にオーディオバランスをプレビューします。

明瞭にするために、通常TTSはBGMよりも大きくする必要があります。一般的な目安は、TTSを100%、BGMを20〜40%に設定することです。

ステップ7：動画を投稿する

すべてが整ったら：

**「次へ」**をタップして投稿画面に進みます。
キャプション、ハッシュタグ、その他の設定を追加します。
**「投稿」**をタップして公開します。

これで、すべての視聴者に対してAI生成されたナレーション付きの動画が公開されます。

TTSに関する一般的な問題のトラブルシューティング

テキスト読み上げオプションが表示されない：

● TikTokアプリを最新バージョンにアップデートしてください。

● お住まいの地域で一時的に機能が利用できない場合があります。

● アプリを一度閉じてから開き直してみてください。

音声オプションが制限されている、または見当たらない：

● 一部の音声は地域限定であるか、定期的に入れ替わります。

● キャラクター音声はライセンス制限の対象となる場合があります。

● アプリのアップデートを確認してください。新しい音声は定期的に追加されます。

TTSの音声が正しく聞こえない：

● 句読点を確認してください。句点がないと一気に読み上げられてしまうことがあります。

● 略語がそのまま読み上げられる場合があります（「Dr.」など）。

● 数字や特殊文字が予期せぬ発音を引き起こすことがあります。

音量が小さすぎる：

● BGMの音量を下げてください。

● プレビュー中にデバイスの音量が上がっていることを確認してください。

● 音声の種類によっては、もともと音が小さいものもあります。

TikTokで外部TTSツールを使用する

TikTokの内蔵音声はクイックなコンテンツ制作には便利ですが、制限もあります。音声がいかにも「TikTok的」であり、カスタマイズの幅が狭く、利用可能性も変動します。ナレーションをより細かくコントロールしたいクリエイターは、外部で音声を生成してTikTokにインポートする方法を選ぶことがよくあります。

外部TTSのワークフロー：

サードパーティのTTSジェネレーターを使用してオーディオファイルを作成します。
MP3またはWAVファイルをダウンロードします。
CapCutやInShotなどの動画編集アプリにオーディオをインポートします。
ナレーションを動画コンテンツに合わせます。
完成した動画を書き出し、TikTokにアップロードします。

このアプローチは手間がかかりますが、より自然な音声、TikTokの入れ替わるオプションに左右されない安定した利用、そして高度なカスタマイズといった大きな利点があります。

外部TTSが適している場合：

より表現力豊かで自然な音声を必要とするクリエイターや、複数の言語でコンテンツを制作するクリエイターにとって、外部TTSツールはTikTokの内蔵オプションでは太刀打ちできない品質を提供します。Fish Audioは、音声がロボット的ではなく人間らしく聞こえ、感情タグシステムによって複雑な設定なしに話し方を調整できるため、TikTokコンテンツに特によく適しています。

Fish AudioのS1モデルは、テキスト内に挿入された（ワクワク）、（緊張）、（自信）といったシンプルなタグを通じて、感情をコントロールした自然な音声を生成します。これは、感情の変化が視聴者の関心を引きつけるストーリーテリングコンテンツにおいて特に有用です。

このプラットフォームは、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、韓国語、アラビア語の8言語で完全な感情機能をサポートしています。国際的な視聴者向けのコンテンツやバイリンガル動画を制作するクリエイターにとって、このカバー範囲は複数のツールを必要とせずにほとんどのニーズを満たします。

一貫した音声の個性を出したい場合は、音声クローンも選択肢の一つです。Fish Audioは、わずか10秒のリファレンス音声からカスタムボイスを作成できるため、毎回手動でナレーションを録音することなく、認識されやすいチャンネルのアイデンティティを構築することが可能です。

Fish Audio logo

Fish Audioの説明後のコンテンツ：

TikTokスタイルのナレーションテキストが表示されたFish AudioのTTSインターフェース推奨されるアクション：

fish.audioにアクセスする
感情タグを含んだTikTokナレーション用のサンプルテキストを入力する
インターフェースのスクリーンショットを撮る注釈：感情タグの構文を示す推奨サイズ：1200x700 ファイル名：fish-audio-tiktok-voice-example.png

その他の外部TTSオプション：

ElevenLabsは、プロのクリエイターに人気の非常に表現力豊かな音声を提供しています。Murf AIは、教育や解説スタイルのコンテンツ向けに強力なカスタマイズオプションを提供しています。GesseritやTikTokVoiceなどのオンラインジェネレーターもあり、デスクトップベースの編集ワークフローに役立ちます。

TikTokでのクリエイティブなTTSアイデア

ストーリーテリング： 関連するビジュアル、Bロール、またはテキストアニメーションを表示しながら、TTSを使用して物語を語ります。AI音声は、声優のスキルを必要とせずに一貫したナレーターを提供します。

チュートリアルコンテンツ： 動画で手順を実演している間、TTSで視聴者をガイドします。このアプローチは、料理、手芸、ハウツーコンテンツに特に効果的です。

リアクション・解説： リアクション対象のコンテンツを見せながら、TTSで自分の考えを追加します。カメラに映りたくないけれど、個性は伝えたいという場合に適しています。

デュエットとリミックス（Stitch）： 他のクリエイターのコンテンツにTTSの解説を追加して、リアクション形式の投稿を作成します。

アクセシビリティ： TTSは、視覚障害や読解に困難がある視聴者にとってもコンテンツを利用しやすくします。潜在的な視聴者を広げるための実用的な方法です。

まとめ

TikTokでテキスト読み上げを追加する手順はシンプルです。動画にテキストを追加し、テキストをタップして「テキスト読み上げ」を選択し、音声を選ぶだけです。この機能は録音の障壁を取り除き、アクセシビリティを高め、視聴者が認識しエンゲージメントを深める定評のあるコンテンツスタイルを活用できます。

TikTokの内蔵オプションを超えた、より自然で表現力豊かな、あるいは一貫性のある音声を求めるクリエイターにとって、Fish Audioのような外部TTSツールは大きなアップグレードとなります。ワークフローの手間は増えますが、音声の品質とクリエイティブなコントロールにおいてそれ以上の価値があります。

まずはTikTok標準のTTSでフォーマットに慣れ、コンテンツにより洗練された音声が必要になったら外部ツールへと広げていきましょう。

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Kyle Cuiの他の記事を読む