AI News HubLIVE
站內改寫1 分鐘閱讀

LiMoDE:從動態專家混合視角重新思考機器人終身操作

本文提出LiMoDE,一種基於動態專家混合(MoE)的兩階段學習方案,用於解決機器人終身操作中的災難性遺忘和技能遷移問題。第一階段通過多任務預訓練學習先驗知識,根據運動信息激活不同專家;第二階段設計終身專家適應機制,動態組合新老專家以適應新任務。在模擬和真實任務中驗證了其有效性。

來源arXiv Robotics作者: Zhihao Gu, Lin Wang

近日,一篇題為《LiMoDE: Rethinking Lifelong Robot Manipulation from a Mixture-of-Dynamic-Experts Perspective》的論文由Zhihao Gu等人提交至arXiv,提出了一種突破性的機器人學習框架LiMoDE。該框架從架構角度重新思考了機器人終身操作問題,旨在構建能夠持續利用先前知識適應新任務的通用機器人。

在機器人學習領域,一個核心挑戰是災難性遺忘——機器人在學習新任務時往往會忘記之前學到的技能。傳統方法通過參數高效的微調來緩解該問題,但這些方法通常只適用於單任務適應,無法有效提取可重用技能並建模技能間的交互。近年來,一些研究嘗試通過提示學習來解決這些問題,而LiMoDE則從全新的視角出發,提出了基於動態專家混合(Mixture of Experts, MoE)的兩階段學習方案。

LiMoDE的第一階段是多任務預訓練階段。在這一階段,研究人員提出了一種動態MoE結構。該結構根據當前任務中的運動信息,動態激活不同數量的異構專家。這些專家各自擅長處理不同類型的短期操作,從而共同學習可重用的技能。與傳統方法相比,這種結構不僅減輕了災難性遺忘,還實現了對通用技能的提取以及技能間交互的建模。

第二階段是任務適應階段。LiMoDE引入了一種名為終身MoE適應機制(LiMoEAM)的方法。該機制為每個新任務學習一組專門的可訓練專家,同時在推理時將它們與第一階段中凍結的專家動態結合。這種設計使得機器人能夠在適應新任務時充分利用已有知識,同時避免參數過度增長。

研究者在模擬的終身學習基準和真實機器人操作任務上對LiMoDE進行了全面評估。實驗結果表明,該框架在性能上顯著優於現有方法,展現出強大的終身適應能力。值得注意的是,LiMoDE僅需引入適量的額外可訓練參數和推理開銷,即可實現這一性能提升。這一工作為構建能夠持續學習和適應的通用機器人提供了新的思路和架構基礎。