GEM-4D:用於機器人操作的幾何增強影片世界模型
GEM-4D是一種幾何增強的影片世界模型,透過注入密集的4D對應監督來提升機器人的操作能力。該模型在訓練時從預訓練的幾何基礎模型中提取知識,從而同時捕捉外觀和幾何結構,且不增加推理成本。此外,引入逆向動力學模組,將一致的影片序列轉化為可執行的機器人軌跡。實驗顯示,GEM-4D在影片預測和幾何一致性上達到最優,並將真實世界操作成功率從61%提升至81%。
文章情報
要點
- GEM-4D透過密集4D對應監督增強影片世界模型的幾何一致性。
- 該模型保持單流架構,無需額外推理成本。
- 引入逆向動力學模組,將影片序列轉化為機器人軌跡。
- 真實世界操作成功率從61%提高到81%。
為什麼重要
這條新聞值得關注,因為GEM-4D透過密集4D對應監督增強影片世界模型的幾何一致性。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
近年來,影片世界模型在機器人操作領域展現出巨大潛力,能夠根據單一指令生成逼真的未來場景。然而,這些模型往往難以保持時間上一致的逐點運動,導致生成的影片雖然視覺上合理,但缺乏執行可靠操作所需的物理基礎。為了解決這一問題,研究團隊提出了GEM-4D(Geometry-Enhanced 4D Video World Models),一種幾何增強的影片世界模型,透過注入密集的4D對應監督,顯著提升了模型的幾何一致性和操作可行性。
GEM-4D的核心創新在於其訓練策略:從預訓練的幾何基礎模型中提取知識,將密集的4D對應監督訊號注入影片生成骨幹網路。這使得模型能夠同時學習外觀和幾何結構,而無需改變單流架構,也不增加推理時的計算負擔。換句話說,GEM-4D在保持高效生成的同時,確保了影片中物體運動的物理合理性。
為了將生成的影片直接應用於機器人操作,研究團隊進一步開發了逆向動力學模組。該模組能夠將具有一致對應關係的影片演化序列(video rollouts)轉換為可執行的機器人軌跡,從而在真實世界和模擬環境中實現直接部署。這意味著,GEM-4D不僅能夠預測未來場景,還能為機器人提供具體的動作指令。
在效能評估中,GEM-4D在影片預測和幾何一致性方面均達到了最先進水平,無論是在模擬還是真實場景中。特別值得注意的是,在真實世界機器人操作任務中,成功率從61%提升至81%,取得了20個百分點的顯著進步。這一成果表明,幾何增強的影片世界模型能夠有效橋接視覺預測與物理執行之間的鴻溝。
GEM-4D的相關程式碼和更多實驗結果已釋出在專案頁面:https://anonymous-submission-20.github.io/gem.github.io/。該研究由Kaichen Zhou等11位作者完成,論文發表於arXiv(編號:2605.22882),主題涵蓋計算機視覺與模式識別(cs.CV)以及機器人學(cs.RO)。