2025-10-16 09:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

Veo 3.1 のプロンプト入力方法

Google の最新ビデオ生成モデル Veo 3.1 は、参照画像、最初と最後のフレーム制御、強化された画像からビデオへの変換など、強力な新機能を提供します。本記事では、これらの機能の使い方、プロンプトのコツ、API 呼び出し例を詳しく解説します。

記事インテリジェンス

エンジニア中級

このニュースが重要なのは、Veo 3.1 は最大3枚の参照画像から一貫性のあるビデオシーンを生成し、キャラクターや物体の一貫性を維持しますためです。

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Google は最新のビデオ生成モデル Veo 3.1 をリリースしました。本モデルには、参照画像、最初と最後のフレーム制御、改良された画像からビデオへの変換といった革新的な機能が搭載されています。以下では、これらの機能の詳細とプロンプト入力のガイドラインを紹介します。

Veo 3.1 で高品質な出力を得るには、以下の要素をプロンプトに含めると効果的です。

ショット構成：被写体のフレーミングと数を指定します（例：「シングルショット」「ツーショット」「肩越しショット」）。
焦点とレンズ効果：「浅い焦点」「深い焦点」「ソフトフォーカス」「マクロレンズ」「広角レンズ」などの用語を使用します。
全体的なスタイルと被写体：「SF」「ロマンティックコメディ」「アクション映画」「アニメーション」などのスタイルを指定します。
カメラの位置と動き：「アイレベル」「ハイアングル」「ワームズアイ」「ドリーショット」「ズームショット」「パンショット」「トラッキングショット」などの用語でカメラワークを制御します。

Veo 3.1 の最もエキサイティングな新機能は、参照画像からのビデオ生成です。最大3枚の参照画像をテキストプロンプトに従って組み合わせ、一貫性のあるビデオシーンを生成できます。

例えば、人物の画像と製品の画像を提供すると、モデルはそれらを保持したまま自然なレビュービデオを生成します。この機能はブランドマスコットやメインキャラクターを様々なシナリオに配置するストーリーテリングに最適です。

この機能は、従来の画像からビデオへの変換を拡張し、開始フレームと終了フレームの両方を指定できます。モデルはテキストプロンプトに基づいて、2つのフレーム間を補間します。

例えば、子羊から虎への変形シーケンスや、部屋の模様替え前後の比較など、特定の開始点と終了点を持つ動画の作成に役立ちます。

従来の画像からビデオへの変換機能が強化され、品質とプロンプト追従性が向上しました。1枚の開始画像と動作を説明するテキストプロンプトを提供するだけで、モデルが画像の内容を理解し、文脈に沿った自然な動きを生成します。

参照画像からの変換を除くすべてのエンドポイントで、高速生成が利用可能です。速度は60秒未満（標準は約90秒）、コストは標準の約半分で、品質は若干低下しますが依然として高品質です。

以下は Replicate API を使用した JavaScript の例です。

基本的な画像からビデオ：画像URL、プロンプト、長さ、解像度を指定します。

複数画像の参照からビデオ：reference_images パラメータで最大3枚の画像URLを渡します。

最初と最後のフレーム：first_frame と last_frame パラメータをそれぞれ設定します。

API はビデオURLを返すため、アプリケーションに直接組み込むことができます。生成型ビデオアプリを開発している方は、ぜひ Veo 3.1 への切り替えをご検討ください。

Veo 3.1 は Replicate で利用可能です。ぜひお試しいただき、あなたの作品を共有してください。