2026-06-01 23:41 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

為什麼影片代理模型是下一個方向 — Ethan He, xAI Grok Imagine

在xAI內部：三個月內構建Grok Imagine，影片生成與世界模型對比，以及為何Grok Imagine被低估。

近日，xAI前成員Ethan He在Latent Space播客中分享了構建Grok Imagine的經歷。他從NVIDIA Cosmos世界模型轉向xAI，在三個月內帶領小團隊從零打造了Grok Imagine。Ethan強調，影片模型的能力主要源於語言模型，而非僅依賴影片資料。他認為，未來影片生成的方向將是影片代理，能夠像AI程式設計一樣進行多輪推理和規劃。此外，快速迭代和修復資料管道中的小錯誤比新演算法更重要。他還討論了影片模型訓練的成本、音訊-影片對齊的挑戰以及世界模型的定義。最後，Ethan預測影片代理將成為下一年的趨勢，而生成式使用者介面可能取代傳統HTML/CSS。