2026-06-17站内改写1 分钟阅读更新: 2026-06-17

对比动作-图像预训练用于视觉运动控制

针对机器人视觉编码器因缺乏大规模配对数据而受限的问题，研究人员提出CAIP方法，利用海量第一人称人类视频中的手部姿态作为机器人末端执行器动作的代理，通过对比学习统一动作-图像表示。仅需88小时机器人数据与32041小时人类视频，CAIP在灵巧操作任务上相比DINOv2等模型性能提升超30%。

来源arXiv Robotics作者: Yuvan Sharma, Dantong Niu, Anirudh Pai, Zekai Wang, Zhuoyang Liu, Baifeng Shi, Stefano Saravalle, Boning Shao, Ruijie Zheng, Jing Wang, Konstantinos Kallidromitis, Yusuke Kato, Fabio Galasso, Yuke Zhu, Danfei Xu, Linxi "Jim" Fan, Jitendra Malik, Trevor Darrell, Roei Herzig

在机器人学习领域，视觉编码器的预训练一直受限于机器人数据集的规模不足。虽然利用互联网图像、语言数据或第一人称人类视频的方法在一定程度上缓解了这一问题，但这些方法并没有学习到视觉运动控制策略所需的配对视觉-动作数据。为了解决这个根本性瓶颈，研究团队提出了一种名为CAIP（Contrastive Action-Image Pre-training）的新方法。CAIP的核心思想是利用大规模第一人称视频中的人类手部姿态作为机器人末端执行器动作的代理信号，通过对比学习来统一图像特征和动作表示。具体来说，CAIP从第一人称视频中提取3D手部关键点，这些关键点天然地与下游机器人动作空间对齐，从而构建一个统一的动作-图像表示。在数据使用上，CAIP仅需88小时的机器人操作数据，同时利用了32041小时的第一人称人类视频（如Ego4D数据集）。实验结果表明，在使用Dexmate Vega和Sharpa Wave灵巧手的真实世界操作任务中，CAIP在折叠毛巾、倒液体等精细操作任务上比DINOv2、SigLIP、MVP和R3M等现有最先进视觉编码器性能提升超过30%。这项研究证明，以动作为中心的对比预训练方法为实现适用于物理交互的鲁棒视觉表征提供了一条可扩展的路径。论文已发布于arXiv，并提供了代码和数据的链接。CAIP的成功表明，通过从人类视频中提取动作代理信号，可以极大地减少对昂贵机器人数据的依赖，为机器人学习领域开辟了新的方向。