GEM-4D:用於機器人操作的幾何增強視頻世界模型
GEM-4D是一種幾何增強的視頻世界模型,通過注入密集的4D對應監督來提升機器人的操作能力。該模型在訓練時從預訓練的幾何基礎模型中提取知識,從而同時捕捉外觀和幾何結構,且不增加推理成本。此外,引入逆向動力學模塊,將一致的視頻序列轉化為可執行的機器人軌跡。實驗顯示,GEM-4D在視頻預測和幾何一致性上達到最優,並將真實世界操作成功率從61%提升至81%。
文章情報
要點
- GEM-4D通過密集4D對應監督增強視頻世界模型的幾何一致性。
- 該模型保持單流架構,無需額外推理成本。
- 引入逆向動力學模塊,將視頻序列轉化為機器人軌跡。
- 真實世界操作成功率從61%提高到81%。
為甚麼重要
這條新聞值得關注,因為GEM-4D通過密集4D對應監督增強視頻世界模型的幾何一致性。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
近年來,視頻世界模型在機器人操作領域展現出巨大潛力,能夠根據單一指令生成逼真的未來場景。然而,這些模型往往難以保持時間上一致的逐點運動,導致生成的視頻雖然視覺上合理,但缺乏執行可靠操作所需的物理基礎。為了解決這一問題,研究團隊提出了GEM-4D(Geometry-Enhanced 4D Video World Models),一種幾何增強的視頻世界模型,通過注入密集的4D對應監督,顯著提升了模型的幾何一致性和操作可行性。
GEM-4D的核心創新在於其訓練策略:從預訓練的幾何基礎模型中提取知識,將密集的4D對應監督信號注入視頻生成骨幹網絡。這使得模型能夠同時學習外觀和幾何結構,而無需改變單流架構,也不增加推理時的計算負擔。換句話説,GEM-4D在保持高效生成的同時,確保了視頻中物體運動的物理合理性。
為了將生成的視頻直接應用於機器人操作,研究團隊進一步開發了逆向動力學模塊。該模塊能夠將具有一致對應關係的視頻演化序列(video rollouts)轉換為可執行的機器人軌跡,從而在真實世界和仿真環境中實現直接部署。這意味着,GEM-4D不僅能夠預測未來場景,還能為機器人提供具體的動作指令。
在性能評估中,GEM-4D在視頻預測和幾何一致性方面均達到了最先進水平,無論是在仿真還是真實場景中。特別值得注意的是,在真實世界機器人操作任務中,成功率從61%提升至81%,取得了20個百分點的顯著進步。這一成果表明,幾何增強的視頻世界模型能夠有效橋接視覺預測與物理執行之間的鴻溝。
GEM-4D的相關代碼和更多實驗結果已發佈在項目頁面:https://anonymous-submission-20.github.io/gem.github.io/。該研究由Kaichen Zhou等11位作者完成,論文發表於arXiv(編號:2605.22882),主題涵蓋計算機視覺與模式識別(cs.CV)以及機器人學(cs.RO)。