DIM-WAM:基于多样化历史事件记忆的世界动作模型
本文提出DIM-WAM,一种记忆增强的世界动作模型,通过多尺度历史上下文、局部未来动态和全局任务进度集成,显著提升机器人长时操作任务的成功率。在RMBench基准上将平均成功率从28.4%提升至69.8%,并在真实Franka任务中实现91.5%的阶段成功率。
机器人操控中的长时任务(如多阶段组装)需要依赖早期观察和任务进度,但现有世界动作模型主要基于短期历史,预测能力有限。针对这一问题,Kai Wang等研究者提出了DIM-WAM(Diverse Historical Event Memory-Augmented World-Action Model),一种记忆增强的世界动作模型,能够有效利用多尺度历史信息、局部未来动态和全局任务进度。
DIM-WAM的核心创新在于其记忆模块。该模块从真实观测中提取紧凑的视觉事件信息,通过独立相似性合并更新多个记忆库,并在读取时嵌入库标识和时序信息,从而为视频和动作去噪提供长期上下文。此外,模型引入进度监督目标,使记忆令牌不仅编码已完成事件,还能反映当前任务阶段及其对剩余任务的影响。这种设计使得模型能够克服长期遗忘问题,并更好地感知全局任务状态。
实验结果表明,DIM-WAM在RMBench基准上将平均成功率从LingBot-VA的28.4%显著提升至69.8%,超越显式记忆基线Mem-0的42.0%。在四个真实Franka操控任务中,平均阶段成功率从70.7%提升至91.5%,完整任务成功率从52.5%提升至80.0%,近乎翻倍。这些结果充分证明了记忆增强对于解决机器人长时任务中遗忘和全局状态感知问题的有效性。
该工作为未来复杂操控任务的研究提供了新方向,展示了如何通过整合多尺度历史信息来提升机器人决策能力。项目页面和论文详见arXiv:2606.27677。