2026-06-09站内改写1 分钟阅读更新: 2026-06-09

EgoAERO: 从单段第一人称视频中学习灵巧操作，无需物体资产

EgoAERO是一个新颖的框架，能够从单段第一人称RGB-D人类演示中学习灵巧机器人操作，而无需预先扫描的物体资产。它重建接触一致的手-物体轨迹，并通过两阶段残差学习将其转化为机器人策略。该框架还引入了在线质量评估机制，并构建了包含430万RGB-D帧的大规模数据集EgoDex-R。实验表明，其性能接近基于CAD的重建方法。

来源arXiv Robotics作者: Yichen Niu, Haoran Lv, Xinrui Zhang, Xueyao Wan, Shiyu Gao, Ying Ai, Hui Xu, Yongqi Hu, Hengyi Zhang, Yang Xie, Zhaxizhuoma, Yue Zhao, Zhenshan Bing, Yan Ding, Jianxing Liu

EgoAERO是一项由Yichen Niu等15位研究人员提出的创新框架，于2026年6月6日提交至arXiv，旨在解决机器人学习中的关键挑战：如何从单段第一人称RGB-D视频中高效学习灵巧操作，而无需预先扫描的物体三维模型。传统的机器人学习方法通常需要依赖昂贵的物体扫描资产，这限制了其在实际环境中的灵活性和可扩展性。EgoAERO通过一套完整的流程，从单段演示中重建手-物体交互轨迹，并转化为机器人可执行的策略。

该框架的核心技术包括无资产物体跟踪与重建、自我运动补偿和自适应接触优化。首先，从视频中实时恢复物体的姿态和几何形状，无需任何先验模型。其次，通过自我运动补偿消除相机运动带来的噪声，确保轨迹的时序一致性。最后，自适应接触优化算法保证生成的手-物体轨迹满足物理接触约束，避免穿透或分离。这些轨迹通过两阶段残差学习转换为机器人策略：第一阶段学习粗略的轨迹分布，第二阶段进行精细调整，从而适应不同机器人运动学。

为了支持大规模学习，团队构建了EgoDex-R数据集，包含430万帧RGB-D数据，涵盖多种灵巧操作任务，如抓取、旋转、插入等。此外，引入了在线质量评估机制，自动筛选高质量的演示样本，提高学习效率。

实验在仿真和真实机器人环境中进行，EgoAERO均展现出接近甚至媲美基于CAD模型的方法的性能。在HOI4D基准测试中，下游任务的成功率与CAD重建方法几乎一致，证明了其在实际应用中的潜力。这一工作为无资产、单演示的灵巧操作学习开辟了新道路，有望推动机器人在家庭、医疗、工业等领域的广泛应用。论文编号arXiv:2606.08057。