AI News HubLIVE
站内改写1 分钟阅读

动作-效应记忆预训练用于机器人操作

一种名为AEM的预训练框架,通过从视觉-动作历史中学习紧凑的时间表示,在仿真和现实世界的操作任务中优于基线方法。

来源arXiv Robotics作者: Yijing Zhou, Qiwei Liang, Sitong Zhuang, Jiaxi Li, Xianpeng Wang, Boyang Cai, Yunyang Mo, Renjing Xu

机器人操作是人工智能领域中的一个重要挑战,尤其是在部分可观测环境下,机器人的当前观测往往不足以完成复杂任务。针对这一问题,来自研究团队的一项新工作提出了AEM(Action-Effect Memory)预训练框架,旨在从视觉和动作历史中学习紧凑的时间表示。与以往主要关注单帧视觉编码的表示预训练方法不同,AEM专门针对操作任务的时间特性进行设计。它通过将视觉和动作特征交错排列,并应用掩码建模来从不完整的历史中恢复缺失信息,从而学习动作条件下的状态演化。具体来说,AEM将操作建模为动作驱动的交互过程:在每一步,机器人接收一个视觉观测并执行一个动作,这些信息被交织成序列,然后通过掩码模型预测被遮盖的部分。这种设计迫使模型理解动作如何影响未来状态。在架构上,AEM使用Mamba架构对最终的视觉令牌进行编码,输出一个紧凑的单向量历史表示,作为解码和下游控制的全局上下文。这种设计保留了时间瓶颈的单向量特性,同时保持了推理效率。实验部分,研究人员将AEM与扩散策略(Diffusion Policy)和流策略(Flow Policy)相结合,在多种仿真和真实世界环境中进行评估。结果一致表明,AEM显著提升了操作性能,在整洁场景、杂乱和随机场合以及非马尔可夫任务中均优于基线方法。消融研究进一步揭示了历史感知预训练的优势:它不仅超越了单帧预训练和直接帧堆叠,还减少了推理延迟和计算成本。这些发现表明,通过有效利用历史信息,AEM能够在复杂动态环境中提供更可靠的操作决策,为机器人操作领域的时序建模开辟了新路径。未来,该框架有望被扩展应用于更广泛的任务,如抓取、装配和移动操作等。