EgoAERO: 从单段第一人称视频中学习灵巧操作,无需物体资产
EgoAERO是一个新颖的框架,能够从单段第一人称RGB-D人类演示中学习灵巧机器人操作,而无需预先扫描的物体资产。它重建接触一致的手-物体轨迹,并通过两阶段残差学习将其转化为机器人策略。该框架还引入了在线质量评估机制,并构建了包含430万RGB-D帧的大规模数据集EgoDex-R。实验表明,其性能接近基于CAD的重建方法。
EgoAERO是一项由Yichen Niu等15位研究人员提出的创新框架,于2026年6月6日提交至arXiv,旨在解决机器人学习中的关键挑战:如何从单段第一人称RGB-D视频中高效学习灵巧操作,而无需预先扫描的物体三维模型。传统的机器人学习方法通常需要依赖昂贵的物体扫描资产,这限制了其在实际环境中的灵活性和可扩展性。EgoAERO通过一套完整的流程,从单段演示中重建手-物体交互轨迹,并转化为机器人可执行的策略。
该框架的核心技术包括无资产物体跟踪与重建、自我运动补偿和自适应接触优化。首先,从视频中实时恢复物体的姿态和几何形状,无需任何先验模型。其次,通过自我运动补偿消除相机运动带来的噪声,确保轨迹的时序一致性。最后,自适应接触优化算法保证生成的手-物体轨迹满足物理接触约束,避免穿透或分离。这些轨迹通过两阶段残差学习转换为机器人策略:第一阶段学习粗略的轨迹分布,第二阶段进行精细调整,从而适应不同机器人运动学。
为了支持大规模学习,团队构建了EgoDex-R数据集,包含430万帧RGB-D数据,涵盖多种灵巧操作任务,如抓取、旋转、插入等。此外,引入了在线质量评估机制,自动筛选高质量的演示样本,提高学习效率。
实验在仿真和真实机器人环境中进行,EgoAERO均展现出接近甚至媲美基于CAD模型的方法的性能。在HOI4D基准测试中,下游任务的成功率与CAD重建方法几乎一致,证明了其在实际应用中的潜力。这一工作为无资产、单演示的灵巧操作学习开辟了新道路,有望推动机器人在家庭、医疗、工业等领域的广泛应用。论文编号arXiv:2606.08057。