AI News HubLIVE
站内改写1 分钟阅读

LiMoDE:从动态专家混合视角重新思考机器人终身操作

本文提出LiMoDE,一种基于动态专家混合(MoE)的两阶段学习方案,用于解决机器人终身操作中的灾难性遗忘和技能迁移问题。第一阶段通过多任务预训练学习先验知识,根据运动信息激活不同专家;第二阶段设计终身专家适应机制,动态组合新老专家以适应新任务。在模拟和真实任务中验证了其有效性。

来源arXiv Robotics作者: Zhihao Gu, Lin Wang

近日,一篇题为《LiMoDE: Rethinking Lifelong Robot Manipulation from a Mixture-of-Dynamic-Experts Perspective》的论文由Zhihao Gu等人提交至arXiv,提出了一种突破性的机器人学习框架LiMoDE。该框架从架构角度重新思考了机器人终身操作问题,旨在构建能够持续利用先前知识适应新任务的通用机器人。

在机器人学习领域,一个核心挑战是灾难性遗忘——机器人在学习新任务时往往会忘记之前学到的技能。传统方法通过参数高效的微调来缓解该问题,但这些方法通常只适用于单任务适应,无法有效提取可重用技能并建模技能间的交互。近年来,一些研究尝试通过提示学习来解决这些问题,而LiMoDE则从全新的视角出发,提出了基于动态专家混合(Mixture of Experts, MoE)的两阶段学习方案。

LiMoDE的第一阶段是多任务预训练阶段。在这一阶段,研究人员提出了一种动态MoE结构。该结构根据当前任务中的运动信息,动态激活不同数量的异构专家。这些专家各自擅长处理不同类型的短期操作,从而共同学习可重用的技能。与传统方法相比,这种结构不仅减轻了灾难性遗忘,还实现了对通用技能的提取以及技能间交互的建模。

第二阶段是任务适应阶段。LiMoDE引入了一种名为终身MoE适应机制(LiMoEAM)的方法。该机制为每个新任务学习一组专门的可训练专家,同时在推理时将它们与第一阶段中冻结的专家动态结合。这种设计使得机器人能够在适应新任务时充分利用已有知识,同时避免参数过度增长。

研究者在模拟的终身学习基准和真实机器人操作任务上对LiMoDE进行了全面评估。实验结果表明,该框架在性能上显著优于现有方法,展现出强大的终身适应能力。值得注意的是,LiMoDE仅需引入适量的额外可训练参数和推理开销,即可实现这一性能提升。这一工作为构建能够持续学习和适应的通用机器人提供了新的思路和架构基础。