Grok Imagine Video 1.5のプロンプト方法
xAIがリリースしたGrok Imagine Video 1.5は、静止画像を同期オーディオ付きの短いクリップにアニメーション化します。このガイドでは、サウンドデザイン、強度修飾語、カメラの動き、フォーカス、画像からの開始など、プロンプトのコツを紹介します。
xAIは最近、Grok Imagine Video 1.5をリリースしました。これは、美的精度と物理的な一貫性が大幅に向上したモデルで、静止画像を同期オーディオ付きの短い動画クリップに一度の推論で変換します。本記事では、多くのテストに基づいて、このモデルの潜在能力を最大限に引き出すためのプロンプトテクニックをまとめています。
動画例
香港の雨の夜の繊細な感情からコスタリカの雲林の静寂な緊張感、アイスランドの氷河上空からの眺めまで、Grok Imagine Video 1.5は多様なシーンを処理できます。各例には詳細なSound:セクションが含まれており、モデルのサウンドデザインに対する理解度を示しています。例えば、「heavy rain drumming on pavement and corrugated metal awnings」と「rain on metal」の違いを正確に捉えています。
プロンプトのコツ
1. サウンドデザイナーのようにSoundセクションを書く
「Sound:」フィールドを明示的に書き、フォーリーアーティストのように音の詳細を説明することが重要です。「city sounds, rain」のような曖昧な記述よりも、「heavy rain drumming on corrugated metal awnings, the low buzz of neon sign transformers, a distant scooter fading away, the hiss of tires on wet road」のような具体的な記述の方が効果的です。「heard from inside a cabin」「sea spray on a microphone」などの空間的・物質的な手がかりは、モデルが豊かなサウンドスケープを生成するのに役立ちます。
2. 強度修飾語を使う
曖昧な表現を避け、「fully」「tremendous force」「screaming high-pitched wail」などの言葉でスケールを明確にします。例えば、「The wave crests」は漠然としていますが、「The wave crests fully and pitches forward, crashing down with tremendous force」ははるかに指示的です。
3. カメラの動きを記述する
指定しない場合、モデルはデフォルトで静的になります。動きが必要な場合は、「slow push-in」「aerial push-in toward」「camera drifts gently to the left」「tracking shot alongside」などを明確に記述します。静的なシーンでは「locked, static」と指定して安定させます。
4. 焦点を絞る
プロンプトは少数の要素に集中させ、散漫にならないようにします。例えば、目のシーンは「風が髪を動かし、光がちらつき、表情は静止」の3文だけです。キャンドルのシーンでは、各ろうそくに微小なアクションを与えています。
5. 画像から始める
最良の方法は、まず画像生成ツール(Grok Imagine Imageなど)や自分の写真で構図と照明を調整し、動画プロンプトでは動きのみを記述することです。例えば、抽象的な3Dレンダリング画像の場合、動画プロンプトでは「ゆっくりとうねり、水銀のように流れる」とだけ記述し、色や質感を再記述する必要はありません。
Replicateでの実行
Grok Imagine Video 1.5はReplicate APIを介して呼び出せ、PythonとJavaScriptのサンプルコードが提供されています。プロンプト、画像URL、長さ、解像度を設定する方法が示されています。このモデルは、特にサウンドと動きを細かく制御したいクリエイティブな用途に適しており、AI動画生成の新たな高みをもたらします。