2026-06-12站内改写1 分钟阅读更新: 2026-06-12

动作-效应记忆预训练用于机器人操作

一种名为AEM的预训练框架，通过从视觉-动作历史中学习紧凑的时间表示，在仿真和现实世界的操作任务中优于基线方法。

来源arXiv Robotics作者: Yijing Zhou, Qiwei Liang, Sitong Zhuang, Jiaxi Li, Xianpeng Wang, Boyang Cai, Yunyang Mo, Renjing Xu

机器人操作是人工智能领域中的一个重要挑战，尤其是在部分可观测环境下，机器人的当前观测往往不足以完成复杂任务。针对这一问题，来自研究团队的一项新工作提出了AEM（Action-Effect Memory）预训练框架，旨在从视觉和动作历史中学习紧凑的时间表示。与以往主要关注单帧视觉编码的表示预训练方法不同，AEM专门针对操作任务的时间特性进行设计。它通过将视觉和动作特征交错排列，并应用掩码建模来从不完整的历史中恢复缺失信息，从而学习动作条件下的状态演化。具体来说，AEM将操作建模为动作驱动的交互过程：在每一步，机器人接收一个视觉观测并执行一个动作，这些信息被交织成序列，然后通过掩码模型预测被遮盖的部分。这种设计迫使模型理解动作如何影响未来状态。在架构上，AEM使用Mamba架构对最终的视觉令牌进行编码，输出一个紧凑的单向量历史表示，作为解码和下游控制的全局上下文。这种设计保留了时间瓶颈的单向量特性，同时保持了推理效率。实验部分，研究人员将AEM与扩散策略（Diffusion Policy）和流策略（Flow Policy）相结合，在多种仿真和真实世界环境中进行评估。结果一致表明，AEM显著提升了操作性能，在整洁场景、杂乱和随机场合以及非马尔可夫任务中均优于基线方法。消融研究进一步揭示了历史感知预训练的优势：它不仅超越了单帧预训练和直接帧堆叠，还减少了推理延迟和计算成本。这些发现表明，通过有效利用历史信息，AEM能够在复杂动态环境中提供更可靠的操作决策，为机器人操作领域的时序建模开辟了新路径。未来，该框架有望被扩展应用于更广泛的任务，如抓取、装配和移动操作等。