ARTSTUDIOWhitePallet

AIを使って動画を作ろう

2026.07.03 AIによるアート

この記事には会員専用コンテンツが含まれます。ログインしてお読みください。

AIを使って動画を作ろう

少し前までなら「映画を撮りたい」「アニメを製作したい」といった動画系の作品は、個人で行うにはリソース、コストの面で現実的にかなり厳しい領域でした。
しかし、現在のAI技術を使えば、低予算、短時間で個人での動画制作が可能になってきています。今回は「AIを使った動画制作」の簡単な手順を紹介します。

現在は無料で生成できる動画生成AIサービスはほぼないため、コスト0とはいきませんが、できるだけ無料で使えるサービスやツールを合わせて紹介します。


制作フロー

今回は、以下の制作フローで行います。


アイディアをまとめる

大規模言語モデル(LLM)と相談しながら、アイディアを出していきます。

  • GPT:OpenAIの大規模言語モデル
  • Claude:Anthropicの大規模言語モデル

サイト内UIに「プロジェクト」や「エージェント」機能などがある場合は、スレッド内容を継続して記憶できるため活用しましょう。

ポイントを決めておくと後の作業効率が良くなります。

何を作りたいか

どんなものを作るかイメージを固めです。PR用、収益化、個人観賞用など目的や目標をLLMとチャットしながら具体的に決めていきます。

誰に見せるか

見せる対称を想定しながら決めていきます。PRや収益化を目指す場合はターゲット層を絞っていきます。ターゲット層が決定するとその層の好み、受けやすい形などが見えてきます。

どんな内容にするか

動画の大まかな内容を決めます。ここでは叩き台として様々なシーンを考えると良いかもしれません。

何分の構成にするか

動画の内容に対してどれくらいの時間の動画にするかを決めます。


内容を構成する

  • GPT:OpenAIの大規模言語モデル
  • Claude:Anthropicの大規模言語モデル

動画の内容をより具体的に決めていきます。構成、ストーリー、世界観、色彩、カット割りなど出来るだけ細かく決めておくと制作がスムーズに進められます。

ファイルにまとめる

時間シーンBGM/SE背景カメラワーク
0-5s女性が座っているノイズ壁面ノイズエフェクト
6-8s横を向いて立ち上がるBGMフェードイン壁面女性衣装チェンジ
9-13s歩き出すBGM天空の回廊全身サイドショット
14-18s歩く女性BGM/風の音夕日背後へ回り込む
19-22s行く先に建物BGM/風の音竜が舞う全身バックショット
23-27s女性が飛ぶBGM/翼の音建物の周囲に竜俯瞰のショット
28-30s2匹の竜BGM/翼の音天空の建物俯瞰からズームアウト
31-38s竜が集まってくるBGM/翼の音建物と夕日テキスト
39-43s暗転、ロゴBGMフェードアウトロゴ
Google スプレッドシートで生成

マークダウンファイル(MD)やスプレッドシートなどに台本や絵コンテの様な形でまとめ、LLMと共有すると効率良いと思います。


原画を作成する

  • Midjourney:アート向けの画像生成モデル(有料)
  • FLUX.2:実写向けの画像生成モデル(有料)
  • GPT image:OpenAIの画像生成モデル

動画に登場するキャラクターや背景のビジュアルを決めます。手描きでラフ案など描いて画像としてAIに渡して描き出してもらったり、文字だけでイメージを伝えて描いてもらうことも可能です。

文字(プロンプト)から生成

ポストアポカリプスの世界に佇むアンドロイドシンガー。顔には弱い間接照明が当たっていて無表情でカメラを見つめている。灰色とダークブルー、彩度は低めのターコイズブルー、アクセントに淡いオレンジの色調。廃退的かつ幻想的でシネマティックな演出で、緻密で写実的なイラストを生成。 原画

Midjourneyで生成

設定画像を作成する

動画に登場するキャラクターや背景の設定資料を生成します。

複数のアングルからの背景を生成

背景 正面 背景 側面 背景 入り口 背景 ステージ

Grok Imagineで生成

リファレンスを生成する

リファレンス画像

「リファレンス画像」は生成するシーンの開始フレーム、途中フレーム、最終フレームなどの画を指定したり、キャラクターに一貫性を持たせたりするために、プロンプトと同時にAIに渡す画像資料です。
カメラアングル、背景や世界観などに強く影響するため、「どのようなシーンにしたいか」をイメージしながら作ります。
エージェントタイプのAIを使うとシーンの意図などをチャットで伝えながら編集するとイメージに近づけることができます。

各シーンのリファレンス(参照)用画像を生成します。この画像が元画像となるため、背景を含めた構図や色合いなど細かく指示しながら生成しましょう。

画像を編集する

  • PhotoShop:Adobeの画像編集ツール(有料)
  • PhotoPea:オンライン画像編集ツール

生成結果がイメージと違う場合は、背景画像とキャラクターの透過画像などの複数の画像(レイヤー)を重ねて加工処理しましょう。

複数の透過画像(レイヤー)を重ねて作成

リファレンス 開始フレーム リファレンス 終了フレーム

PhotoPeaで作成

音楽・音声を生成する

  • Suno:音楽生成モデル(有料)
  • MiniMax:音楽生成/音声生成/クローンボイス
  • ElevenLabs:音声生成

動画内のBGMやセリフ、効果音などの音素材を生成します。MVを製作する場合は曲を先に作ってからリップシンク処理します。

音声、音楽ファイルを編集する

  • VOICEVOX:音声読み上げツール
  • Audacity:音声録音および編集ツール

音量、トーンやノイズ除去、トリミングなど編集して調整します。


動画を生成する

  • Seedance2.0:ByteDanceの動画生成モデル(有料)
  • Kling3.0:Kuaishouの動画生成モデル(有料)
  • Gen-4.5:Runwayの動画生成モデル(有料)
  • Grok Imagine:xAIの動画生成モデル(有料)

生成したリファレンス画像と(文字)プロンプトで指示して動画クリップを必要な数分生成します。

口の動きを同期させる(リップシンク)

曲やセリフは音声ファイルと画像(動画)をアップして口の動きと音声を同期します。


動画を編集する

  • Palmier Pro:Palmierの動画編集AI Macのみ(有料)
  • Gemini Omni:Googleの動画編集型AI(有料)
  • CapCut:ByteDanceの動画編集型AI(有料)

素材を渡すと編集してくれたり、フロー全体をサポートしてくれるAIエージェントタイプのツールも存在します。

  • Premiere Pro:Adobeの動画編集ツール(有料)
  • DaVinciResolve:BlackmagicDesignの動画編集ツール
  • Olive:オープンソースの動画編集ツール

生成した動画クリップを繋ぎ編集します。この作業はAIに任せるよりも自分のセンスで編集することをお勧めします。


完成・試写・公開

音楽
Suno
画像
Midjourney
Grok Imagine
動画
Grok Imagine
Veo3

完成した動画を視聴して確認します。この工程はAIに任せず自身の目で確認しましょう。


今回ご紹介したフロー、AIやツールは、2026年7月現在利用可能なものを前提としています。
AIの進化はどんどん加速しているため、来年には全く異なるツールやフローが主流になっている可能性も低くありません。
よりクオリティの高い映像作品を作りたい場合は、最新の技術に積極的に触れてみることをお勧めします。

ログインできない場合 新規会員登録