AIを使って動画を作ろう

2026.07.03 AIによるアート

この記事には会員専用コンテンツが含まれます。ログインしてお読みください。

少し前までなら「映画を撮りたい」「アニメを製作したい」といった動画系の作品は、個人で行うにはリソース、コストの面で現実的にかなり厳しい領域でした。
しかし、現在のAI技術を使えば、低予算、短時間で個人での動画制作が可能になってきています。今回は「AIを使った動画制作」の簡単な手順を紹介します。

現在は無料で生成できる動画生成AIサービスはほぼないため、コスト0とはいきませんが、できるだけ無料で使えるサービスやツールを合わせて紹介します。

制作フロー

今回は、以下の制作フローで行います。

アイディアをまとめる
内容を構成する
原画を作成する
設定画像を作成する
リファレンスを生成する
音声・音楽を生成する
動画を生成する
動画を編集する
完成・試写・公開

アイディアをまとめる

大規模言語モデル(LLM)と相談しながら、アイディアを出していきます。

GPT：OpenAIの大規模言語モデル
Claude：Anthropicの大規模言語モデル

サイト内UIに「プロジェクト」や「エージェント」機能などがある場合は、スレッド内容を継続して記憶できるため活用しましょう。

ポイントを決めておくと後の作業効率が良くなります。

何を作りたいか

どんなものを作るかイメージを固めです。PR用、収益化、個人観賞用など目的や目標をLLMとチャットしながら具体的に決めていきます。

誰に見せるか

見せる対称を想定しながら決めていきます。PRや収益化を目指す場合はターゲット層を絞っていきます。ターゲット層が決定するとその層の好み、受けやすい形などが見えてきます。

どんな内容にするか

動画の大まかな内容を決めます。ここでは叩き台として様々なシーンを考えると良いかもしれません。

何分の構成にするか

動画の内容に対してどれくらいの時間の動画にするかを決めます。

内容を構成する

GPT：OpenAIの大規模言語モデル
Claude：Anthropicの大規模言語モデル

動画の内容をより具体的に決めていきます。構成、ストーリー、世界観、色彩、カット割りなど出来るだけ細かく決めておくと制作がスムーズに進められます。

ファイルにまとめる

Obsidian：マークダウンファイルの編集・管理ツール
Google スプレッドシート：表を作成できるツール

時間	シーン	BGM/SE	背景	カメラワーク
0-5s	女性が座っている	ノイズ	壁面	ノイズエフェクト
6-8s	横を向いて立ち上がる	BGMフェードイン	壁面	女性衣装チェンジ
9-13s	歩き出す	BGM	天空の回廊	全身サイドショット
14-18s	歩く女性	BGM/風の音	夕日	背後へ回り込む
19-22s	行く先に建物	BGM/風の音	竜が舞う	全身バックショット
23-27s	女性が飛ぶ	BGM/翼の音	建物の周囲に竜	俯瞰のショット
28-30s	2匹の竜	BGM/翼の音	天空の建物	俯瞰からズームアウト
31-38s	竜が集まってくる	BGM/翼の音	建物と夕日	テキスト
39-43s	暗転、ロゴ	BGMフェードアウト	黒	ロゴ

Google スプレッドシートで生成

マークダウンファイル(MD)やスプレッドシートなどに台本や絵コンテの様な形でまとめ、LLMと共有すると効率良いと思います。

原画を作成する

Midjourney：アート向けの画像生成モデル(有料)
FLUX.2：実写向けの画像生成モデル(有料)
GPT image：OpenAIの画像生成モデル

動画に登場するキャラクターや背景のビジュアルを決めます。手描きでラフ案など描いて画像としてAIに渡して描き出してもらったり、文字だけでイメージを伝えて描いてもらうことも可能です。

文字(プロンプト)から生成

ポストアポカリプスの世界に佇むアンドロイドシンガー。顔には弱い間接照明が当たっていて無表情でカメラを見つめている。灰色とダークブルー、彩度は低めのターコイズブルー、アクセントに淡いオレンジの色調。廃退的かつ幻想的でシネマティックな演出で、緻密で写実的なイラストを生成。

Midjourneyで生成

設定画像を作成する

GPT image：OpenAIの画像生成モデル
Nano Banana 2：Googleの画像生成モデル
Grok Imagine：xAIの画像生成モデル(有料)

動画に登場するキャラクターや背景の設定資料を生成します。

複数のアングルからの背景を生成

背景正面背景側面背景入り口背景ステージ

Grok Imagineで生成

リファレンスを生成する

「リファレンス画像」は生成するシーンの開始フレーム、途中フレーム、最終フレームなどの画を指定したり、キャラクターに一貫性を持たせたりするために、プロンプトと同時にAIに渡す画像資料です。
カメラアングル、背景や世界観などに強く影響するため、「どのようなシーンにしたいか」をイメージしながら作ります。
エージェントタイプのAIを使うとシーンの意図などをチャットで伝えながら編集するとイメージに近づけることができます。

GPT image：OpenAIの画像生成モデル
Nano Banana 2：Googleの画像生成モデル
Grok Imagine：xAIの画像生成モデル(有料)

各シーンのリファレンス(参照)用画像を生成します。この画像が元画像となるため、背景を含めた構図や色合いなど細かく指示しながら生成しましょう。

画像を編集する

PhotoShop：Adobeの画像編集ツール(有料)
PhotoPea：オンライン画像編集ツール

生成結果がイメージと違う場合は、背景画像とキャラクターの透過画像などの複数の画像(レイヤー)を重ねて加工処理しましょう。

複数の透過画像(レイヤー)を重ねて作成

リファレンス開始フレームリファレンス終了フレーム

PhotoPeaで作成

音楽・音声を生成する

Suno：音楽生成モデル(有料)
MiniMax：音楽生成/音声生成/クローンボイス
ElevenLabs：音声生成

動画内のBGMやセリフ、効果音などの音素材を生成します。MVを製作する場合は曲を先に作ってからリップシンク処理します。

音声、音楽ファイルを編集する

VOICEVOX：音声読み上げツール
Audacity：音声録音および編集ツール

音量、トーンやノイズ除去、トリミングなど編集して調整します。

動画を生成する

Seedance2.0：ByteDanceの動画生成モデル(有料)
Kling3.0：Kuaishouの動画生成モデル(有料)
Gen-4.5：Runwayの動画生成モデル(有料)
Grok Imagine：xAIの動画生成モデル(有料)

生成したリファレンス画像と(文字)プロンプトで指示して動画クリップを必要な数分生成します。

口の動きを同期させる(リップシンク)

曲やセリフは音声ファイルと画像(動画)をアップして口の動きと音声を同期します。

動画を編集する

Palmier Pro：Palmierの動画編集AI Macのみ(有料)
Gemini Omni：Googleの動画編集型AI(有料)
CapCut：ByteDanceの動画編集型AI(有料)

素材を渡すと編集してくれたり、フロー全体をサポートしてくれるAIエージェントタイプのツールも存在します。

Premiere Pro：Adobeの動画編集ツール(有料)
DaVinciResolve：BlackmagicDesignの動画編集ツール
Olive：オープンソースの動画編集ツール

生成した動画クリップを繋ぎ編集します。この作業はAIに任せるよりも自分のセンスで編集することをお勧めします。

完成・試写・公開

音楽: Suno
画像: Midjourney
Grok Imagine
動画: Grok Imagine
Veo3

完成した動画を視聴して確認します。この工程はAIに任せず自身の目で確認しましょう。

今回ご紹介したフロー、AIやツールは、2026年7月現在利用可能なものを前提としています。
AIの進化はどんどん加速しているため、来年には全く異なるツールやフローが主流になっている可能性も低くありません。
よりクオリティの高い映像作品を作りたい場合は、最新の技術に積極的に触れてみることをお勧めします。

AIには表現できない芸術の要素

artNote

オンライン絵画教室

写して送るだけ。

デッサン

油彩画水彩画

彫刻フィギア

イラストデザイン

Onlineで始めよう。

Myアトリエ

ダークモード top

ARTSTUDOWhitePallet