2026-05-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

GEM-4D：用于机器人操作的几何增强视频世界模型

GEM-4D是一种几何增强的视频世界模型，通过注入密集的4D对应监督来提升机器人的操作能力。该模型在训练时从预训练的几何基础模型中提取知识，从而同时捕捉外观和几何结构，且不增加推理成本。此外，引入逆向动力学模块，将一致的视频序列转化为可执行的机器人轨迹。实验显示，GEM-4D在视频预测和几何一致性上达到最优，并将真实世界操作成功率从61%提升至81%。

来源arXiv Computer Vision作者: Kaichen Zhou, Yuzhen Chen, Fangneng Zhan, Hang Hua, Grace Chen, Xinhai Chang, Ao Qu, Yilun Du, Zhuang Liu, Paul Pu Liang, Mengyu Wang

近年来，视频世界模型在机器人操作领域展现出巨大潜力，能够根据单一指令生成逼真的未来场景。然而，这些模型往往难以保持时间上一致的逐点运动，导致生成的视频虽然视觉上合理，但缺乏执行可靠操作所需的物理基础。为了解决这一问题，研究团队提出了GEM-4D（Geometry-Enhanced 4D Video World Models），一种几何增强的视频世界模型，通过注入密集的4D对应监督，显著提升了模型的几何一致性和操作可行性。

GEM-4D的核心创新在于其训练策略：从预训练的几何基础模型中提取知识，将密集的4D对应监督信号注入视频生成骨干网络。这使得模型能够同时学习外观和几何结构，而无需改变单流架构，也不增加推理时的计算负担。换句话说，GEM-4D在保持高效生成的同时，确保了视频中物体运动的物理合理性。

为了将生成的视频直接应用于机器人操作，研究团队进一步开发了逆向动力学模块。该模块能够将具有一致对应关系的视频演化序列（video rollouts）转换为可执行的机器人轨迹，从而在真实世界和仿真环境中实现直接部署。这意味着，GEM-4D不仅能够预测未来场景，还能为机器人提供具体的动作指令。

在性能评估中，GEM-4D在视频预测和几何一致性方面均达到了最先进水平，无论是在仿真还是真实场景中。特别值得注意的是，在真实世界机器人操作任务中，成功率从61%提升至81%，取得了20个百分点的显著进步。这一成果表明，几何增强的视频世界模型能够有效桥接视觉预测与物理执行之间的鸿沟。

GEM-4D的相关代码和更多实验结果已发布在项目页面：https://anonymous-submission-20.github.io/gem.github.io/。该研究由Kaichen Zhou等11位作者完成，论文发表于arXiv（编号：2605.22882），主题涵盖计算机视觉与模式识别（cs.CV）以及机器人学（cs.RO）。