【Google AI Studio】静止画の4コマ漫画を“声付き動画広告”に変える方法【Canva×CapCut】

静止画の4コマを15秒の動画広告にしたい
マーケティングの一環で制作した 4コマ漫画の広告クリエイティブ。
この静止画を「音声付きの短尺動画広告」にすることでSNSやYouTubeでの広告でも活用できないか?と思ったのが今回のきっかけです。
Google AI Studioで音声生成に初挑戦
以下の記事をきっかけに、Google AI Studio の音声機能を知りました。
Gemini 2.5 FlashをベースとしたTTS(Text-to-Speech)機能を使えば、テキストを入力するだけで自然なナレーション音声が生成できるようなので、実際に試してみました。
今回の制作はすべて パソコン(Mac)上で作業。スマホアプリなどは使用せず、以下の3つのツールで完結しました。
- Google AI Studio(音声生成)
- Canva(静止画のレイアウト作成)
- CapCut(PC版)(動画編集・書き出し)
使用スタイルと音声モデル
GoogleAIStudioではStyleを指定することで音声の方向性を決めることができるようです。
今回は以下のプロンプトで指示出し。広告が50代夫婦がスマホでサービスを見つけるまでの流れだったので、年齢と性別を指定しつつ、0.5sの間を最後に指定してみました。
Style: Warm and friendly tone, slightly fast pace, voiced by 50s male (Zubenelgenubi) and female (Aoede), with a 0.5s breath after each line.

喋る人も1人か2人か選べますが、会話調にすると音声の揺らぎが多く試行が大変だったので別々で作って組み合わせました。
- 👨🦳 男性音声:Zubenelgenubi
- 👩🦳 女性音声:Aoede
それぞれ声を聞きながらイメージと合ったVoiceを設定して、4コマ漫画のセリフを一つずつ音声化しました。

セリフ例
夫:「お店に行くのは面倒だし…」
妻:「問い合わせたら電話がいっぱい来るし…」
上記の台詞自体もchatGPTにシーンを指定して、細かく作ってもらっています
そして出来上がった音声はこちら。同じセリフなのに全然違う声質や抑揚のものが上がってきています。ここからが長かった。。。
音声生成は便利だけど、制御が大変
一見便利なAI音声ですが、実際にやってみて感じたのは、
「毎回、声のニュアンスや抑揚が微妙に変わる」
という難しさ。
スタイルを指定しても、出力される音声は毎回少しずつ異なるため、「これは違うな」「今のは惜しい」と感じたら、何度も生成し直す必要があります。
いわゆる「音声ガチャ」のような工程で、狙った声になるまで何度も試行錯誤を重ねる必要がありました。
Canva+CapCutで15秒動画に仕上げ
音声ファイルが完成した後は、Canvaで作った4コマ静止画をCapCutで編集。
画像と音声をタイムライン上で配置し、切り替えタイミングを合わせて、15秒の動画広告として書き出しました。
音声の雰囲気と画像のテンポが一致すると、ただの静止画よりもはるかに伝わる動画コンテンツになります。
4コママンガ自体もAIに生成させることが可能なので、AIだけで動画広告を作ることができてしまいました。
振り返りと気づき
- 音声生成には Google AI Studio + Gemini 2.5 Flash を使用
- 声の再現性にバラつきがあり、制御がやや難しい
- Canva+CapCutの組み合わせで 実用的な動画広告が作れる
- 「録音せずに声を作れる」のは、工数削減にも非常に効果的
これらの方法で動画広告を作れば、「SNS(Instagram・Facebook・X)広告」「Youtube広告」などの量産が容易にできるため、「動画広告をテストしてみたい」「人の声を入れるほどでもないけど、無音は弱い」という方には、非常におすすめのアプローチです。
AI音声×静止画で、短時間・低コストに動画広告を作れるこの方法、ぜひお試しください。