PAIWorld:用于机器人操作的三维一致世界基础模型
PAIWorld提出了一种扩散变换器框架,通过几何感知跨视图注意力、几何旋转位置编码和潜在3D-REPA蒸馏,实现了机器人操作中的多视图3D一致性,在WorldArena排行榜上排名第一,在AgiBot-Challenge2026上排名第二。
世界基础模型(World Foundation Models, WFMs)是强大的模拟器,但当前的工作主要集中在单视图设置中,缺乏机器人操作所必需的多视图三维一致性。机器人系统通常依赖多个摄像头(如自我中心视角、眼对手视角和手腕安装视角)进行策略学习,但现有的多视图世界模型只是简单地将视图令牌拼接在一起,缺乏显式的几何推理。这导致跨视图物体漂移、深度不一致和纹理错位等问题。研究人员将这些失败追溯到两个根本缺陷:缺乏显式的视图间通信机制,以及缺乏三维几何先验。他们提出,同时解决这两个问题是必要且充分的。
为了解决这一挑战,研究团队提出了PAIWorld框架,该框架通过三个核心组件增强了扩散变换器(Diffusion Transformer)世界模型:第一,几何感知跨视图注意力块(Geometry-Aware Cross-View Attention),它在不同视图之间建立了显式的信息通路;第二,几何旋转位置编码(Geometric Rotary Position Embedding),它将相机光线方向和外部姿态编码到注意力机制中;第三,潜在三维REPA(Latent 3D-REPA),它从冻结的3D基础模型中蒸馏出三维感知特征,以确保三维一致性。这些组件协同工作,使模型能够理解不同视角之间的几何关系。
基于DiT世界基础模型构建的PAIWorld,在机器人操作基准测试中实现了最先进的多视图三维一致性。在WorldArena排行榜上,它取得了第一名的成绩;在AgiBot-Challenge2026排行榜上,它获得了第二名。除了性能领先外,PAIWorld还支持多种下游应用,包括基于模型的规划、世界动作模型以及多视图策略后训练。这些应用使机器人能够更准确地感知和交互三维环境,为复杂操作任务提供了坚实的基础。这项研究由Yuhang Huang等28位作者共同完成,论文于2026年6月16日提交。