2026-05-21 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

如何提示Grok Imagine Video 1.5

xAI發佈了Grok Imagine Video 1.5，能將靜態圖像轉化為帶同步音頻的短動畫。本文提供詳細的提示指南，包括如何使用聲音描述、強度修飾語、鏡頭運動以及從圖像出發的技巧。

xAI最近發佈了Grok Imagine Video 1.5，這是一個重大升級，在美學精度和物理遵循方面都有顯著提升。該模型能將靜態圖像轉化為帶有同步音頻的短動畫，且所有處理都在一次推理中完成。本文基於大量測試，總結了一套提示技巧，幫助用户充分發揮該模型的潛力。

視頻示例

Grok Imagine Video 1.5能夠處理多種場景，從香港雨夜的細膩情緒到哥斯達黎加雲林的靜默張力，再到冰河之上的航拍視角。每個示例都包含詳細的Sound:部分，展示了模型對聲音設計的理解力。例如，“heavy rain drumming on pavement and corrugated metal awnings”與“rain on metal”的區別被精確捕捉。

提示技巧

1. 像聲音設計師一樣編寫Sound部分

明確寫出“Sound:”字段，並像擬音師一樣描述聲音細節至關重要。模糊的描述如“城市聲音，雨聲”效果遠不如具體的“heavy rain drumming on corrugated metal awnings, the low buzz of neon sign transformers, a distant scooter fading away, the hiss of tires on wet road”。空間和材質提示如“heard from inside a cabin”、“sea spray on a microphone”等能引導模型生成豐富的聲音景觀。

2. 使用強度修飾語

避免模糊表述，用“fully”、“tremendous force”、“screaming high-pitched wail”等詞明確規模。例如，“The wave crests”太籠統，而“The wave crests fully and pitches forward, crashing down with tremendous force”則更具指示性。

3. 描述鏡頭運動

若不指定，模型默認靜態鏡頭。需要動態時，應明確如“slow push-in”、“aerial push-in toward”、“camera drifts gently to the left”、“tracking shot alongside”等。靜態場景也可用“locked, static”來保持穩定。

4. 保持焦點

提示應聚焦在少數元素上，避免雜亂。例如，一個眼神場景只用三句話：風移動頭髮、光線閃爍、表情靜止。蠟燭場景則給每根蠟燭一個微型動作。

5. 從圖像開始

最佳實踐是先用圖像生成器（如Grok Imagine Image）或自有圖片調好構圖和光線，然後在視頻提示中只描述運動。例如，一張抽象3D渲染圖，視頻提示只需描述“緩緩起伏、像水銀一樣流動”，而無需重新描述色彩和材質。

在Replicate上運行

Grok Imagine Video 1.5可通過Replicate API調用，支持Python和JavaScript。示例代碼展示瞭如何設置提示、圖像URL、時長和分辨率。該模型為AI視頻生成帶來了新高度，尤其適合需要精細控制聲音和運動的創作場景。