2026-06-03 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

MetaWorld：从单视角视频数据扩展多智能体视频世界模型

MetaWorld是一个新颖的框架，旨在从单视角视频中扩展多智能体视频世界模型，以应对数据稀缺和世界状态对齐的挑战。它通过单目世界状态展开（MWSU）分解相机运动和主体轨迹，利用主题感知世界生成器进行外观驱动模拟，并通过世界状态对齐（WSA）确保跨视图一致性。实验显示其优越的跨视图一致性和身份保真度。

来源arXiv Computer Vision作者: Teng Hu, Mingchun Lu, Yating Wang, Jiangning Zhang, Jinkun Hao, Ye Pan, Ran Yi, Lizhuang Ma, Dacheng Tao

MetaWorld是由Teng Hu等八位研究者共同提出的一项创新框架，旨在解决视频世界模型在多智能体场景中的扩展难题。传统的视频世界模型通常局限于单个智能体从单一视角进行观察，这严重限制了其在具身AI和元宇宙等领域的应用潜力。当尝试扩展到多智能体时，研究者面临两大核心挑战：首先是数据稀缺问题——协调多视角录制成本极其高昂，难以在通用的开放领域大规模收集；其次是世界状态对齐问题——独立生成的视频流无法保证共享物理环境和事件在不同视角下的一致性。

为了突破这些瓶颈，MetaWorld提出了三项关键技术。第一项是单目世界状态展开（Monocular World-State Unrolling, MWSU），它能够将单目视频显式分解为摄像机的自我运动（ego-motion）和可见主体的空间轨迹。这种分解方式天然地在共享的三维空间中提取出同步的多智能体运动数据，从而完全绕过了多相机设置的需求，大幅降低了数据采集成本。第二项是主题感知世界生成器（Subject-Aware World Generator），该生成器支持基于每个智能体身份图像的外观驱动模拟，为精细化的视觉控制提供了可能。第三项是世界状态对齐（World-State Alignment, WSA），这是一种在视频DiT的每个Transformer层中插入的帧间分支交叉注意力机制。通过联合协调去噪过程，WSA同时强制执行静态几何一致性和动态运动一致性，确保共享的三维环境和物理事件在两个自我中心视角下始终保持良好对齐。

大量的实验结果表明，MetaWorld在跨视图一致性和身份保真度方面均取得了显著优于现有方法的性能，为多智能体视频世界建模建立了一个高度可扩展、物理驱动的全新范式。该研究已被提交至arXiv，编号为2606.02753，主题涵盖计算机视觉与模式识别（cs.CV）以及人工智能（cs.AI）。这一成果预示着未来在自动驾驶、机器人协作、虚拟现实等需要多视角协同感知的领域具有广阔的应用前景。