目次
InstagramのリールやTikTok、YouTubeショートを見ていると、キャラクターや動物、食べ物や家電、日用品などが、人間のように話している動画を見かけることがあります。
たとえば、野菜が自分の栄養を語ったり、家電が商品の特徴を説明したり、かわいいキャラクターが豆知識を教えてくれたりするようなショート動画です。
こうした動画は、一見すると作るのが難しそうに見えます。
しかし、AI動画生成ツールのDomoAI(ドモエーアイ)を使えば、画像や音声を組み合わせて、キャラクターやモノが話しているような動画を作成することができます。
はじめまして、Ny@Tech(にゃテック)と申します。
私はこれまでWEBマーケティングの分野で活動してきましたが、2024年からは生成AIの可能性に注目し、現在はさまざまな動画生成AIツールの検証・研究を日々おこなっています。
この記事では、DomoAIを使って、キャラクターやモノに話させるAI動画の作り方を紹介します。
完成イメージとしては、次のようなショート動画になります。
まず、今回作成するショート動画の流れを整理しておきます。
DomoAIなどを使ってキャラクターやモノなどに話させる動画を作る場合、大きく分けると次の5ステップで進めることができます。

ポイントは、最初から動画を作ろうとしないことです。
まずシナリオを用意し、その内容に合わせてキャラクター画像や音声を作成していくと、作業全体の流れを整理しやすくなります。
最初におこなうのは、動画のシナリオ作成です。
ショート動画は尺が短いため、いきなりDomoAIで作り始めても、簡単に形にできそうに見えます。
しかし、短い動画でも1本のストーリーとして見せるには、話の流れが必要です。
そのため、最初にシナリオという"地図"を用意しておくと、キャラクター画像の作成や音声づくり、動画にする作業も進めやすくなります。
特に、キャラクターやモノに話させる動画では、次の3つを決めておくとシナリオが作りやすいです。
たとえば、美容家電の紹介動画であれば、次のように整理できます。
これが食品系の動画であれば、ピーマンやトマトなどのキャラクターに、自分の栄養や魅力を語らせることもできます。
このように、最初に話し手・内容・目的を決めておくことで、短い動画でもストーリーのあるシナリオが作りやすくなります。
シナリオは、自分で書いてもよいですが、ChatGPTやGeminiなどのAIツールを使うと効率的に作成できます。
たとえば、次のようなプロンプトを使います。
目的:YouTubeショート用の台本を作成してください。
テーマ:すい臓が自分の役割や大切さを語る動画
登場キャラクター:かわいい「すい臓」のキャラクター
動画の長さ:60秒程度
雰囲気:親しみやすく、少しだけ切実さがある
目的:すい臓の役割や、日々の生活習慣の大切さに興味を持ってもらう
構成:冒頭のつかみ、本文、最後の一言
このように条件を指定すると、ショート動画向けの台本を作りやすくなります。
また、登場キャラクターの性格や雰囲気を決めておくと、あとでDomoAIで画像を作るときにも方向性を決めやすくなります。
今回は「すい臓のキャラクター」をメインにして、以下のストーリー構成に沿って画像・音声・動画を作成していきます。

このように構成を決めておくと、その後の画像や音声の作成、動画化の作業を進めやすくなります。
キャラクターに喋らせる動画では、台詞を長くしすぎないことも大切です。
文章として読む場合は自然に見えても、日本語音声にすると、間の取り方やイントネーションに違和感が出ることがあるからです。
特に、日本語は、助詞や語尾、文の区切り方によって意味や印象が変わることもあるため、AIに自然な発音で読ませるには、文章を短く区切っておく方が無難です。
たとえば、動画内では、次のように短く区切ると聞き取りやすくなります。
人間が音読する場合でも、文章が長すぎると息継ぎや抑揚が難しくなりますよね。
AI音声でも同じように、短く区切った文章の方が、自然な日本語の話し方に近づきやすくなります。
そのため、AIアバターに話させる台詞は、文章としての情報量よりも、日本語音声にしたときの聞き取りやすさを優先するとよいでしょう。
シナリオができたら、次にキャラクター画像を作成します。
今回は、DomoAIのトーキングアバター機能で、すい臓のキャラクターに話させることを前提に、正面向きの画像を作成していきます。
DomoAIには、テキストから画像を生成できるAI画像生成機能があります。
左メニューの「AI画像」を選択します。
次に、2026年5月に新しく設置されたプルダウンメニューから「テキスト→画像生成」を選ぶと、テキストプロンプトをもとに画像を生成することができます。
ただし、この機能では、あらかじめ用意されているアニメーションテンプレートに沿って画像を生成する形式になります。
そのため今回は、画像編集機能から「GPT Image 2」モデルを使って、キャラクター画像を生成します。
なお、インスタグラムのリール、TikTok、YouTubeショートで使う場合は、縦型動画が基本です。
そのため、画像を作る段階から縦型構図にしておくと、あとで動画化する際に編集がしやすくなります。
今回は、縦型ショート動画に合わせて、構図は9:16を選択しておきます。

また、あとからトーキングアバター機能で話させることを考えると、キャラクターの見た目だけでなく、顔の向きや口元の見え方も重要です。
たとえば、かわいいキャラクター画像が生成できたとしても、顔が横を向いていたり、口元が小さすぎたり、背景が複雑だったりすると、リップシンク動画としては使いにくくなることがあります。
そのため、プロンプトでは次のような点を指定しておくと、AIアバター化しやすい画像を作りやすくなります。
最初は正面向きで、顔と口元がはっきり見えるキャラクター画像になるようにプロンプトで指示しておきましょう。
正面の画像が生成できたら、必要に応じて横向きや後ろ姿、表情違いの画像も作成しておくと、動画化する際に意図した映像に近づけやすくなります。

続いて、背景を作成します。
キャラクターと背景を分けて作成するのは、意図しない構図や描写になる可能性を抑えるためです。
キャラクターと背景を最初から1枚の画像として生成することもできますが、その場合、キャラクターの表情や立ち位置、背景の雰囲気が思った通りにならないことがあります。
そのため、今回はキャラクター画像と背景画像を別々に作成し、あとからDomoAIの画像編集機能で1枚の画像にしました。

なお、DomoAIの画像編集機能では、最大9枚の画像をアップロードできます。
複数の画像を参照しながら生成できるため、キャラクター画像と背景画像を組み合わせたい場合にも活用しやすい機能です。
キャラクターや背景画像などができたら、次に音声を作成します。
DomoAIでは、外部で作成した音声ファイルをアップロードできるだけでなく、「音声読み上げ」機能を使って音声を生成することもできます。
使い方は簡単です。
まず、左メニューにある「AIビデオ」を選択します。
次に、2026年5月に新しく設置されたプルダウンメニューから「音声読み上げ」を選択します。
その後、使用したい声を選び、テキストスクリプト欄にキャラクターへ喋らせたいセリフを入力します。
なお、2026年5月時点におけるテキスト読み上げ機能は、8種類の音声を選択できます。
また、必要に応じて、セリフの一部に感情表現や声のトーンを加えることもできるので、より自然な音声にすることが可能です。

もちろん、テキスト読み上げ機能は日本語にも対応しています。
ただし、漢字に関しては、意図した発音にならない場合があります。
その場合は、誤読されやすい漢字をひらがなに直したり、正しく読ませたい部分をダブルクォーテーションで囲んだりすると、正しく読ませることができます。
たとえば、「弱点」を正しく読ませたい場合は、"じゃくてん"のように入力すると、意図した読み方で音声が生成されます。
画像と音声が用意できたら、トーキングアバター機能を使って、キャラクターを喋らせます。
なお、以前の日本語版では「AIアバター」と表示されていましたが、現在は「トーキングアバター」と表記されています。
まず、先ほど作成したキャラクター画像、またはキャラクターと背景を組み合わせた画像を用意します。
DomoAI上のアセットから選択するか、新しく画像をアップロードしてください。
なお、キャラクターに喋らせる場合は、顔が正面を向いていて、口元がはっきり見える画像の方が自然に仕上がりやすくなります。
もちろん、横顔や斜め向きの画像でも使える場合はありますが、正面向きの画像で試した方が失敗しにくいと思います。
次に、キャラクターに話させたい音声を追加します。
ここでは、先ほど作成した音声を選択しました。
その後、音声の長さに合わせて、生成する動画の秒数を選びます。
たとえば、音声が12秒の場合は、その長さをカバーできるように、20秒の設定を選択します。
最後に、画像サイズをショート動画向けの9:16に設定し、「生成」ボタンを押して動画を作成します。

これらの作業を、前述した「すい臓キャラクター動画の構成」に沿っておこない、5本分+αの動画を作成しました。

なお、DomoAIで作成した画像や音声、動画は以下の形式でダウンロードできます。
各素材をダウンロードしたら、Adobe Premiere ProやFinal Cut Proなどの動画編集ソフトに読み込み、1本のショート動画としてつなげていきます。
DomoAIは、画像から動画を生成したり、キャラクターを喋らせたりする用途には便利ですが、基本的に複数の動画素材を1本につなげる本格的な編集機能はありません。
そのため、DomoAIで生成した複数の動画素材をつなげたり、効果音やBGM、字幕を加えたりする場合は、Adobe Premiere ProやFinal Cut Proなどの動画編集ソフトを使って仕上げます。
動画を作成する際、キャラクターが話している音声だけだと、少し寂しい印象になることがあります。
そこで、場面に合った効果音やBGMを加えると、動画にリズムが生まれ、ショート動画として見やすくなります。
効果音やBGMは、無料で使えて、商用利用にも対応している日本語対応の素材サイトがいくつかあります。
有名なサービスとしては「効果音ラボ」や「DOVA-SYNDROME」がありますが、ここでは代表的な効果音・BGMサービスを表にまとめました。
| サービス名 | 主な素材 | クレジット表記 | 特徴・注意点 |
|---|---|---|---|
| 効果音ラボ | 効果音 | 不要 | 効果音に強い定番サイト。個人・法人・公的機関を問わず無料で使用できます。ただし、再配布やAI学習用データとしての利用は禁止されています。 |
| DOVA-SYNDROME | BGM・効果音 | 不要 | BGM素材が豊富。利用規約の範囲内であれば、営利・非営利を問わず無料で利用できます。ただし、制作者が別途利用条件を設定している場合があります。 |
| OtoLogic | BGM・効果音・ジングル | 必要 | CC BY 4.0に基づく素材サイト。商用利用や改変も可能ですが、無料利用ではクレジット表記が必要です。 |
| 甘茶の音楽工房 | BGM | 原則不要 | やさしい雰囲気のBGMが多いサイト。商用・個人利用を問わず利用できます。ただし、音楽だけの販売や二次配布、YouTubeのContent ID登録は禁止されています。 |
| 魔王魂 | BGM・効果音・歌素材 | 不要 | ゲーム風・インパクトのあるBGMや効果音に強いサイト。利用報告や使用料は不要とされています。 |
| BGMer | BGM | 任意 | 動画向けのBGMを探しやすいサイト。利用規約の範囲内であれば、個人利用・商用利用ともに無料で利用できます。 |
なお、利用規約は変更されることがあるため、実際に使用する際は、各サービスの最新の利用規約を確認してください。
Adobe Premiere ProやFinal Cut Proなどの動画編集ソフトに、作成した動画素材や効果音などを読み込みます。
シンプルなショート動画であれば、各動画素材を順番につなぎ、不要な部分をカットして整えるだけでも十分です。
そのうえで、必要に応じてBGMや効果音、字幕などを加えると、より見やすい動画に仕上げられます。
なお、DomoAIなどの生成AIツールで作成した動画を編集する際に役立つのが、動画編集ソフトの「速度・デュレーション」設定です。
動画生成サービスでは、フレームごとの動きの速さまで細かく指定するのが難しい場合があります。
そのため、動きが少し速すぎる部分や、逆に間延びして見える部分がある場合は、動画編集ソフト側で再生速度を調整すると、映像の違和感を抑えやすくなります。
下記の画像はAdobe Premiere Proの画面ですが、同様の速度調整機能は多くの動画編集ソフトに備わっています。

また、Adobe Premiere Proに限らず、現在の動画編集ソフトには自動字幕生成機能を備えているものも多くあります。
こうした機能を活用すれば、手作業で字幕を入力する手間を減らしながら、ショート動画に字幕を追加することができます。
そして、実際に作成した動画がこちらです。
DomoAIでは、画像の作成から音声の作成、さらにリップシンクによる口の動きの生成まで、ひとつのサービス内でおこなうことができます。
そのため、InstagramのリールやTikTok、YouTubeショートなどで見かける、食べ物や家電などのモノが話しているような動画も、専門的な動画制作スキルがなくても作成することが可能です。
DomoAIでは、無料登録するとお試し用のクレジットが付与されるので、興味がある方は、その機能を体験してみてください。
最後に、ショート動画を作成する際に疑問に感じやすいポイントを、Q&A形式でまとめました。
Q1. ショート動画の長さは何秒くらいが最適ですか?
A1.内容にもよりますが、最初は20秒~60秒程度を目安にすると作りやすいと思います。冒頭3秒で視聴者の興味を引くことが、最後まで見てもらうための最大のポイントだと言われています。そのため、冒頭に「これやってみて!」「今すぐやめてください!」「知らないと損します!」といった注意を引くフックを入れることがあります。
Q2. ショート動画に最適なアスペクト比(画面サイズ)はなんですか?
A2. TikTok、Instagramリール、YouTubeショートに投稿する場合は、縦型の9:16で作成するのが基本です。解像度は1080×1920pxで書き出すと、画質が劣化せずきれいに表示されます。横型(16:9)の動画をそのまま投稿すると上下に黒帯が入るため、縦型にトリミングして編集しましょう。
Q3. 字幕(テロップ)は入れた方がいいですか?
A3. 入れることおすすめします。SNSではサウンドオフ(音声なし)で視聴されるケースが多く、字幕がないと内容が伝わらずスクロールされてしまう確率があがります。
Q4. DomoAIで作った動画は商用利用できますか?
A4.有料プランに加入していれば、生成したコンテンツの権利は基本的にユーザー側に帰属します。ただし、生成に使用した元の画像やキャラクターの著作権が第三者にある場合は、その限りではありません。既存のキャラクターや他者の画像を使用する際は、著作権侵害にならないよう十分に注意しましょう。
Q5.無料で使用できる動画編集ソフトはありますか?
A5.はい、無料で使える動画編集ソフトはいくつかあります。たとえば、「CapCut」と「Vrew」です。どちらも基本機能は無料で利用できるため、まずはこれらのソフトから始めてみるとよいでしょう。
以上、ショート動画を作成する際によくある質問を紹介しました。
AIによる音声の読み上げ機能は着実に進化しています。
DomoAIを使うことで、画像生成から音声作成、リップシンク動画の作成まで、ひとつの流れで試すことができます。
ぜひ、進化し続けるDomoAIで、キャラクターやモノが話すショート動画を作ってみてください。
最近の記事
© 2025 ドメインページ(株)
どーもあい