EgoEngine:从人类自我中心视频到高保真灵巧机器人演示
EgoEngine是一个可扩展的框架,能够将自我中心的人类操作视频转换为高保真的机器人观察视频和可执行的动作轨迹,从而克服了从人类演示到机器人学习中的视觉和动作鸿沟。该方法在仿真和真实机器人上实现了零样本的灵巧策略学习,无需真实的机器人演示数据。
来源arXiv Robotics作者: Yangcen Liu, Shuo Cheng, Xinchen Yin, Woo Chul Shin, Alfred Cueva, Yiran Yang, Zhenyang Chen, Chuye Zhang, Danfei Xu
灵巧操作是机器人领域的一个重要目标,但大规模收集机器人演示数据成本高昂。自我中心的人类视频提供了一种可扩展的多样化操作行为来源,然而直接将其用于机器人学习需要克服两个关键障碍:人类与机器人观察之间的视觉差异,以及人类运动与机器人可执行动作之间的动作差异。
为此,来自研究团队的Yangcen Liu等人提出了EgoEngine,这是一个创新的可扩展框架,旨在将自我中心的人类操作视频转化为高保真的机器人数据。给定一段自我中心的RGB视频,EgoEngine能够生成两大输出:首先,一个高保真的机器人观察视频,其中人类被替换为机器人,同时保留场景上下文和时间对齐;其次,在可行性约束下,一个与任务对齐且可执行的机器人动作轨迹。这一过程使得从人类视频中提取的演示数据能够直接用于机器人学习。
实验在仿真环境和真实机器人上均进行了验证,结果表明EgoEngine能够有效且可扩展地将人类视频转换为机器人数据。据研究人员所知,这是首个无需真实机器人演示,即从自我中心人类视频中实现零样本视觉-运动灵巧策略学习的工作。该成果为机器人学习领域提供了新的可能性,极大降低了数据收集的成本和门槛。项目网站(https://egoengine.github.io)提供了更多详细信息和演示视频。该论文已于2026年6月10日提交至arXiv,编号为2606.12604。