DIM-WAM:基於多樣化歷史事件記憶的世界動作模型
本文提出DIM-WAM,一種記憶增強的世界動作模型,透過多尺度歷史上下文、區域性未來動態和全域性任務進度整合,顯著提升機器人長時操作任務的成功率。在RMBench基準上將平均成功率從28.4%提升至69.8%,並在真實Franka任務中實現91.5%的階段成功率。
機器人操控中的長時任務(如多階段組裝)需要依賴早期觀察和任務進度,但現有世界動作模型主要基於短期歷史,預測能力有限。針對這一問題,Kai Wang等研究者提出了DIM-WAM(Diverse Historical Event Memory-Augmented World-Action Model),一種記憶增強的世界動作模型,能夠有效利用多尺度歷史資訊、區域性未來動態和全域性任務進度。
DIM-WAM的核心創新在於其記憶模組。該模組從真實觀測中提取緊湊的視覺事件資訊,透過獨立相似性合併更新多個記憶庫,並在讀取時嵌入庫標識和時序資訊,從而為影片和動作去噪提供長期上下文。此外,模型引入進度監督目標,使記憶令牌不僅編碼已完成事件,還能反映當前任務階段及其對剩餘任務的影響。這種設計使得模型能夠克服長期遺忘問題,並更好地感知全域性任務狀態。
實驗結果表明,DIM-WAM在RMBench基準上將平均成功率從LingBot-VA的28.4%顯著提升至69.8%,超越顯式記憶基線Mem-0的42.0%。在四個真實Franka操控任務中,平均階段成功率從70.7%提升至91.5%,完整任務成功率從52.5%提升至80.0%,近乎翻倍。這些結果充分證明了記憶增強對於解決機器人長時任務中遺忘和全域性狀態感知問題的有效性。
該工作為未來複雜操控任務的研究提供了新方向,展示瞭如何透過整合多尺度歷史資訊來提升機器人決策能力。專案頁面和論文詳見arXiv:2606.27677。