2026-06-17站内改写1 分钟阅读更新: 2026-06-17

ACE-Ego-0：统一自我中心人类与机器人数据用于VLA预训练

ACE-Ego-0是一个统一的视觉-语言-动作（VLA）预训练框架，通过将自我中心人类视频转换为机器人格式的伪动作轨迹，并结合可靠性感知训练目标，有效融合人类和机器人数据，提升了VLA模型的预训练和微调性能。

来源arXiv Robotics作者: Hao Li, Ganlong Zhao, Yufei Liu, Haotian Hou, Guoquan Ye, Tongyan Fang, Chunxiao Liu, Siyuan Huang, Jianbo Liu, Xiaogang Wang, Hongsheng Li

视觉-语言-动作（VLA）模型在机器人领域展现出巨大潜力，但大规模机器人轨迹数据的收集成本高昂且劳动密集。近期研究表明，大规模自我中心人类视频可以作为预训练的补充真实世界监督信号。然而，由于动作空间、身体结构、时间动态和监督质量等方面的差异，联合训练人类和机器人数据仍面临挑战。

为解决这一问题，研究团队提出了ACE-Ego-0，一个统一的VLA预训练框架，能够联合利用异构数据源。该框架的核心创新包括三个方面：首先，构建了一个可扩展的自我中心视频到动作流水线，将原始人类视频转换为机器人格式的伪动作轨迹；其次，采用基于相机空间动作、形态条件化和时间对齐动作分块的统一动作表示，使人类伪动作标签与机器人演示具有可比性；最后，设计了一个可靠性感知训练目标，通过人类辅助损失将监督集中在可靠信号上，从而稳健地利用来自自我中心人类视频的噪声伪动作监督。

在实验中，ACE-Ego-0在4.53K小时的机器人和模拟数据以及1.48K小时的伪动作标记自我中心人类数据上进行了实例化。结果表明，在可靠性感知加权下，纳入大规模人类监督能够一致性地提升统一联合预训练和监督微调的性能。该框架在RoboCasa GR1 TableTop和RoboTwin 2.0基准上取得了最先进的结果，并展示了向真实世界双臂操作任务的有效迁移。这些成果表明，通过有效利用大规模人类视频数据，可以显著提升机器人学习模型的性能和泛化能力，为未来机器人学习提供了新的方向。