AIを使って動画を作ろう
2026.07.03 AIによるアートこの記事には会員専用コンテンツが含まれます。ログインしてお読みください。
少し前までなら「映画を撮りたい」「アニメを製作したい」といった動画系の作品は、個人で行うにはリソース、コストの面で現実的にかなり厳しい領域でした。
しかし、現在のAI技術を使えば、低予算、短時間で個人での動画制作が可能になってきています。今回は「AIを使った動画制作」の簡単な手順を紹介します。
現在は無料で生成できる動画生成AIサービスはほぼないため、コスト0とはいきませんが、できるだけ無料で使えるサービスやツールを合わせて紹介します。
制作フロー
今回は、以下の制作フローで行います。
アイディアをまとめる
大規模言語モデル(LLM)と相談しながら、アイディアを出していきます。
サイト内UIに「プロジェクト」や「エージェント」機能などがある場合は、スレッド内容を継続して記憶できるため活用しましょう。
ポイントを決めておくと後の作業効率が良くなります。
何を作りたいか
どんなものを作るかイメージを固めです。PR用、収益化、個人観賞用など目的や目標をLLMとチャットしながら具体的に決めていきます。
誰に見せるか
見せる対称を想定しながら決めていきます。PRや収益化を目指す場合はターゲット層を絞っていきます。ターゲット層が決定するとその層の好み、受けやすい形などが見えてきます。
どんな内容にするか
動画の大まかな内容を決めます。ここでは叩き台として様々なシーンを考えると良いかもしれません。
何分の構成にするか
動画の内容に対してどれくらいの時間の動画にするかを決めます。
内容を構成する
動画の内容をより具体的に決めていきます。構成、ストーリー、世界観、色彩、カット割りなど出来るだけ細かく決めておくと制作がスムーズに進められます。
ファイルにまとめる
- Obsidian:マークダウンファイルの編集・管理ツール
- Google スプレッドシート:表を作成できるツール
| 時間 | シーン | BGM/SE | 背景 | カメラワーク |
|---|---|---|---|---|
| 0-5s | 女性が座っている | ノイズ | 壁面 | ノイズエフェクト |
| 6-8s | 横を向いて立ち上がる | BGMフェードイン | 壁面 | 女性衣装チェンジ |
| 9-13s | 歩き出す | BGM | 天空の回廊 | 全身サイドショット |
| 14-18s | 歩く女性 | BGM/風の音 | 夕日 | 背後へ回り込む |
| 19-22s | 行く先に建物 | BGM/風の音 | 竜が舞う | 全身バックショット |
| 23-27s | 女性が飛ぶ | BGM/翼の音 | 建物の周囲に竜 | 俯瞰のショット |
| 28-30s | 2匹の竜 | BGM/翼の音 | 天空の建物 | 俯瞰からズームアウト |
| 31-38s | 竜が集まってくる | BGM/翼の音 | 建物と夕日 | テキスト |
| 39-43s | 暗転、ロゴ | BGMフェードアウト | 黒 | ロゴ |
マークダウンファイル(MD)やスプレッドシートなどに台本や絵コンテの様な形でまとめ、LLMと共有すると効率良いと思います。
原画を作成する
- Midjourney:アート向けの画像生成モデル(有料)
- FLUX.2:実写向けの画像生成モデル(有料)
- GPT image:OpenAIの画像生成モデル
動画に登場するキャラクターや背景のビジュアルを決めます。手描きでラフ案など描いて画像としてAIに渡して描き出してもらったり、文字だけでイメージを伝えて描いてもらうことも可能です。
文字(プロンプト)から生成
ポストアポカリプスの世界に佇むアンドロイドシンガー。顔には弱い間接照明が当たっていて無表情でカメラを見つめている。灰色とダークブルー、彩度は低めのターコイズブルー、アクセントに淡いオレンジの色調。廃退的かつ幻想的でシネマティックな演出で、緻密で写実的なイラストを生成。
設定画像を作成する
- GPT image:OpenAIの画像生成モデル
- Nano Banana 2:Googleの画像生成モデル
- Grok Imagine:xAIの画像生成モデル(有料)
動画に登場するキャラクターや背景の設定資料を生成します。
複数のアングルからの背景を生成
リファレンスを生成する
「リファレンス画像」は生成するシーンの開始フレーム、途中フレーム、最終フレームなどの画を指定したり、キャラクターに一貫性を持たせたりするために、プロンプトと同時にAIに渡す画像資料です。
カメラアングル、背景や世界観などに強く影響するため、「どのようなシーンにしたいか」をイメージしながら作ります。
エージェントタイプのAIを使うとシーンの意図などをチャットで伝えながら編集するとイメージに近づけることができます。
- GPT image:OpenAIの画像生成モデル
- Nano Banana 2:Googleの画像生成モデル
- Grok Imagine:xAIの画像生成モデル(有料)
各シーンのリファレンス(参照)用画像を生成します。この画像が元画像となるため、背景を含めた構図や色合いなど細かく指示しながら生成しましょう。
画像を編集する
生成結果がイメージと違う場合は、背景画像とキャラクターの透過画像などの複数の画像(レイヤー)を重ねて加工処理しましょう。
複数の透過画像(レイヤー)を重ねて作成
音楽・音声を生成する
- Suno:音楽生成モデル(有料)
- MiniMax:音楽生成/音声生成/クローンボイス
- ElevenLabs:音声生成
動画内のBGMやセリフ、効果音などの音素材を生成します。MVを製作する場合は曲を先に作ってからリップシンク処理します。
音声、音楽ファイルを編集する
音量、トーンやノイズ除去、トリミングなど編集して調整します。
動画を生成する
- Seedance2.0:ByteDanceの動画生成モデル(有料)
- Kling3.0:Kuaishouの動画生成モデル(有料)
- Gen-4.5:Runwayの動画生成モデル(有料)
- Grok Imagine:xAIの動画生成モデル(有料)
生成したリファレンス画像と(文字)プロンプトで指示して動画クリップを必要な数分生成します。
口の動きを同期させる(リップシンク)
曲やセリフは音声ファイルと画像(動画)をアップして口の動きと音声を同期します。
動画を編集する
- Palmier Pro:Palmierの動画編集AI Macのみ(有料)
- Gemini Omni:Googleの動画編集型AI(有料)
- CapCut:ByteDanceの動画編集型AI(有料)
素材を渡すと編集してくれたり、フロー全体をサポートしてくれるAIエージェントタイプのツールも存在します。
- Premiere Pro:Adobeの動画編集ツール(有料)
- DaVinciResolve:BlackmagicDesignの動画編集ツール
- Olive:オープンソースの動画編集ツール
生成した動画クリップを繋ぎ編集します。この作業はAIに任せるよりも自分のセンスで編集することをお勧めします。
完成・試写・公開
- 音楽
- Suno
- 画像
- Midjourney
Grok Imagine - 動画
- Grok Imagine
Veo3
完成した動画を視聴して確認します。この工程はAIに任せず自身の目で確認しましょう。
今回ご紹介したフロー、AIやツールは、2026年7月現在利用可能なものを前提としています。
AIの進化はどんどん加速しているため、来年には全く異なるツールやフローが主流になっている可能性も低くありません。
よりクオリティの高い映像作品を作りたい場合は、最新の技術に積極的に触れてみることをお勧めします。





