DIM-WAM: 多様な履歴イベント記憶を用いた世界行動モデリング
本論文では、マルチスケールの履歴コンテキスト、局所的な将来ダイナミクス、およびグローバルなタスク進捗を統合する記憶拡張型世界行動モデルDIM-WAMを提案する。RMBenchで平均成功率を28.4%から69.8%に向上させ、実際のFrankaタスクでは段階成功率を70.7%から91.5%に改善した。
ロボット操作における長期タスク(多段階組立など)は、初期の観察やタスク進捗に依存するが、既存の世界行動モデルは主に短期履歴に基づいており、予測能力が限られている。この問題に対処するため、Kai WangらはDIM-WAM(多様な履歴イベント記憶拡張世界行動モデル)を提案した。これは、マルチスケールの履歴情報、局所的な将来ダイナミクス、およびグローバルなタスク進捗を効果的に活用する。
DIM-WAMの核心はその記憶モジュールにある。このモジュールは実際の観測からコンパクトな視覚イベント情報を抽出し、独立した類似性マージにより複数の記憶バンクを更新し、読み取り時にバンクIDと時間情報を埋め込むことで、ビデオとアクションのデノイジングに長期コンテキストを提供する。さらに、プログレス監視目的を導入し、記憶トークンが完了したイベントだけでなく、現在のタスク段階と残りのタスクへの影響をエンコードするように促す。これにより、長期忘却の問題を克服し、グローバルなタスク状態の認識を向上させる。
実験結果によると、DIM-WAMはRMBenchベンチマークで平均成功率をLingBot-VAの28.4%から69.8%に大幅に向上させ、明示的記憶ベースラインMem-0の42.0%を上回った。4つの実世界Franka操作タスクでは、平均段階成功率が70.7%から91.5%に向上し、完全タスク成功率が52.5%から80.0%に倍増した。これらの結果は、長期タスクにおける忘却とグローバル状態認識の問題に対する記憶拡張の有効性を明確に示している。
本研究は、将来の複雑な操作タスク研究に新たな方向性を提供し、マルチスケール履歴情報の統合によるロボット意思決定能力の向上を示している。プロジェクトページと論文はarXiv:2606.27677を参照。