如何提示Grok Imagine Video 1.5
xAI發佈了Grok Imagine Video 1.5,能將靜態圖像轉化為帶同步音頻的短動畫。本文提供詳細的提示指南,包括如何使用聲音描述、強度修飾語、鏡頭運動以及從圖像出發的技巧。
xAI最近發佈了Grok Imagine Video 1.5,這是一個重大升級,在美學精度和物理遵循方面都有顯著提升。該模型能將靜態圖像轉化為帶有同步音頻的短動畫,且所有處理都在一次推理中完成。本文基於大量測試,總結了一套提示技巧,幫助用户充分發揮該模型的潛力。
視頻示例
Grok Imagine Video 1.5能夠處理多種場景,從香港雨夜的細膩情緒到哥斯達黎加雲林的靜默張力,再到冰河之上的航拍視角。每個示例都包含詳細的Sound:部分,展示了模型對聲音設計的理解力。例如,“heavy rain drumming on pavement and corrugated metal awnings”與“rain on metal”的區別被精確捕捉。
提示技巧
1. 像聲音設計師一樣編寫Sound部分
明確寫出“Sound:”字段,並像擬音師一樣描述聲音細節至關重要。模糊的描述如“城市聲音,雨聲”效果遠不如具體的“heavy rain drumming on corrugated metal awnings, the low buzz of neon sign transformers, a distant scooter fading away, the hiss of tires on wet road”。空間和材質提示如“heard from inside a cabin”、“sea spray on a microphone”等能引導模型生成豐富的聲音景觀。
2. 使用強度修飾語
避免模糊表述,用“fully”、“tremendous force”、“screaming high-pitched wail”等詞明確規模。例如,“The wave crests”太籠統,而“The wave crests fully and pitches forward, crashing down with tremendous force”則更具指示性。
3. 描述鏡頭運動
若不指定,模型默認靜態鏡頭。需要動態時,應明確如“slow push-in”、“aerial push-in toward”、“camera drifts gently to the left”、“tracking shot alongside”等。靜態場景也可用“locked, static”來保持穩定。
4. 保持焦點
提示應聚焦在少數元素上,避免雜亂。例如,一個眼神場景只用三句話:風移動頭髮、光線閃爍、表情靜止。蠟燭場景則給每根蠟燭一個微型動作。
5. 從圖像開始
最佳實踐是先用圖像生成器(如Grok Imagine Image)或自有圖片調好構圖和光線,然後在視頻提示中只描述運動。例如,一張抽象3D渲染圖,視頻提示只需描述“緩緩起伏、像水銀一樣流動”,而無需重新描述色彩和材質。
在Replicate上運行
Grok Imagine Video 1.5可通過Replicate API調用,支持Python和JavaScript。示例代碼展示瞭如何設置提示、圖像URL、時長和分辨率。該模型為AI視頻生成帶來了新高度,尤其適合需要精細控制聲音和運動的創作場景。