2026-06-18站内改写1 分钟阅读更新: 2026-06-18

PAIWorld：用于机器人操作的三维一致世界基础模型

PAIWorld提出了一种扩散变换器框架，通过几何感知跨视图注意力、几何旋转位置编码和潜在3D-REPA蒸馏，实现了机器人操作中的多视图3D一致性，在WorldArena排行榜上排名第一，在AgiBot-Challenge2026上排名第二。

来源arXiv Robotics作者: Yuhang Huang, Xuan Lv, Junyan Xu, Zhiyuan Yu, Jiazhao Zhang, Ruizhen Hu, Wancheng Feng, Shilong Zou, Hewen Xiao, Ziqiao Zhou, Kaiyun Huang, Zhiyu Peng, Juzhan Xu, Hang Zhao, Chenyang Zhu, Renjiao Yi, Yifei Huang, Douhui Wu, Yan Zhang, Kexu Cheng, Chunhe Song, Yunzhi Xue, Xiuhong Zhang, Leitao Guo, Yunji Chen, Bin Wu, Haibin Yu, Kai Xu

世界基础模型（World Foundation Models, WFMs）是强大的模拟器，但当前的工作主要集中在单视图设置中，缺乏机器人操作所必需的多视图三维一致性。机器人系统通常依赖多个摄像头（如自我中心视角、眼对手视角和手腕安装视角）进行策略学习，但现有的多视图世界模型只是简单地将视图令牌拼接在一起，缺乏显式的几何推理。这导致跨视图物体漂移、深度不一致和纹理错位等问题。研究人员将这些失败追溯到两个根本缺陷：缺乏显式的视图间通信机制，以及缺乏三维几何先验。他们提出，同时解决这两个问题是必要且充分的。

为了解决这一挑战，研究团队提出了PAIWorld框架，该框架通过三个核心组件增强了扩散变换器（Diffusion Transformer）世界模型：第一，几何感知跨视图注意力块（Geometry-Aware Cross-View Attention），它在不同视图之间建立了显式的信息通路；第二，几何旋转位置编码（Geometric Rotary Position Embedding），它将相机光线方向和外部姿态编码到注意力机制中；第三，潜在三维REPA（Latent 3D-REPA），它从冻结的3D基础模型中蒸馏出三维感知特征，以确保三维一致性。这些组件协同工作，使模型能够理解不同视角之间的几何关系。

基于DiT世界基础模型构建的PAIWorld，在机器人操作基准测试中实现了最先进的多视图三维一致性。在WorldArena排行榜上，它取得了第一名的成绩；在AgiBot-Challenge2026排行榜上，它获得了第二名。除了性能领先外，PAIWorld还支持多种下游应用，包括基于模型的规划、世界动作模型以及多视图策略后训练。这些应用使机器人能够更准确地感知和交互三维环境，为复杂操作任务提供了坚实的基础。这项研究由Yuhang Huang等28位作者共同完成，论文于2026年6月16日提交。