AI News HubLIVE
站內改寫2 分鐘閱讀

如何提示Grok Imagine Video 1.5

xAI釋出了Grok Imagine Video 1.5,能將靜態影像轉化為帶同步音訊的短動畫。本文提供詳細的提示指南,包括如何使用聲音描述、強度修飾語、鏡頭運動以及從影像出發的技巧。

xAI最近釋出了Grok Imagine Video 1.5,這是一個重大升級,在美學精度和物理遵循方面都有顯著提升。該模型能將靜態影像轉化為帶有同步音訊的短動畫,且所有處理都在一次推理中完成。本文基於大量測試,總結了一套提示技巧,幫助使用者充分發揮該模型的潛力。

影片示例

Grok Imagine Video 1.5能夠處理多種場景,從香港雨夜的細膩情緒到哥斯大黎加雲林的靜默張力,再到冰河之上的航拍視角。每個示例都包含詳細的Sound:部分,展示了模型對聲音設計的理解力。例如,“heavy rain drumming on pavement and corrugated metal awnings”與“rain on metal”的區別被精確捕捉。

提示技巧

1. 像聲音設計師一樣編寫Sound部分

明確寫出“Sound:”欄位,並像擬音師一樣描述聲音細節至關重要。模糊的描述如“城市聲音,雨聲”效果遠不如具體的“heavy rain drumming on corrugated metal awnings, the low buzz of neon sign transformers, a distant scooter fading away, the hiss of tires on wet road”。空間和材質提示如“heard from inside a cabin”、“sea spray on a microphone”等能引導模型生成豐富的聲音景觀。

2. 使用強度修飾語

避免模糊表述,用“fully”、“tremendous force”、“screaming high-pitched wail”等詞明確規模。例如,“The wave crests”太籠統,而“The wave crests fully and pitches forward, crashing down with tremendous force”則更具指示性。

3. 描述鏡頭運動

若不指定,模型預設靜態鏡頭。需要動態時,應明確如“slow push-in”、“aerial push-in toward”、“camera drifts gently to the left”、“tracking shot alongside”等。靜態場景也可用“locked, static”來保持穩定。

4. 保持焦點

提示應聚焦在少數元素上,避免雜亂。例如,一個眼神場景只用三句話:風移動頭髮、光線閃爍、表情靜止。蠟燭場景則給每根蠟燭一個微型動作。

5. 從影像開始

最佳實踐是先用影像生成器(如Grok Imagine Image)或自有圖片調好構圖和光線,然後在影片提示中只描述運動。例如,一張抽象3D渲染圖,影片提示只需描述“緩緩起伏、像水銀一樣流動”,而無需重新描述色彩和材質。

在Replicate上執行

Grok Imagine Video 1.5可透過Replicate API呼叫,支援Python和JavaScript。示例程式碼展示瞭如何設定提示、影像URL、時長和解析度。該模型為AI影片生成帶來了新高度,尤其適合需要精細控制聲音和運動的創作場景。