2026-06-29 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-29 17:21 UTC+9

DIM-WAM: 多様な履歴イベント記憶を用いた世界行動モデリング

本論文では、マルチスケールの履歴コンテキスト、局所的な将来ダイナミクス、およびグローバルなタスク進捗を統合する記憶拡張型世界行動モデルDIM-WAMを提案する。RMBenchで平均成功率を28.4%から69.8%に向上させ、実際のFrankaタスクでは段階成功率を70.7%から91.5%に改善した。

ソースarXiv Robotics著者: Kai Wang, Zhaopeng Gu, Yixiang Chen, Yuan Xu, Qisen Ma, Peng Su, Zhaowen Li, Yan Huang, Liang Wang

記事インテリジェンス

エンジニア上級

要点

既存の世界行動モデルは短期履歴に依存し、長期的タスクには不十分。
DIM-WAMは複数の記憶バンクを使用して長期コンテキストを抽出、統合、読み取り、グローバル認識を強化。
RMBenchでは、DIM-WAMが28.4%から69.8%の成功率を達成し、明示的記憶ベースライン42.0%を超える。
実際のFrankaタスクでは段階成功率が70.7%から91.5%に向上し、完全タスク成功率が52.5%から80.0%に倍増。

重要な理由

このニュースが重要なのは、既存の世界行動モデルは短期履歴に依存し、長期的タスクには不十分ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

ロボット操作における長期タスク（多段階組立など）は、初期の観察やタスク進捗に依存するが、既存の世界行動モデルは主に短期履歴に基づいており、予測能力が限られている。この問題に対処するため、Kai WangらはDIM-WAM（多様な履歴イベント記憶拡張世界行動モデル）を提案した。これは、マルチスケールの履歴情報、局所的な将来ダイナミクス、およびグローバルなタスク進捗を効果的に活用する。

DIM-WAMの核心はその記憶モジュールにある。このモジュールは実際の観測からコンパクトな視覚イベント情報を抽出し、独立した類似性マージにより複数の記憶バンクを更新し、読み取り時にバンクIDと時間情報を埋め込むことで、ビデオとアクションのデノイジングに長期コンテキストを提供する。さらに、プログレス監視目的を導入し、記憶トークンが完了したイベントだけでなく、現在のタスク段階と残りのタスクへの影響をエンコードするように促す。これにより、長期忘却の問題を克服し、グローバルなタスク状態の認識を向上させる。

実験結果によると、DIM-WAMはRMBenchベンチマークで平均成功率をLingBot-VAの28.4%から69.8%に大幅に向上させ、明示的記憶ベースラインMem-0の42.0%を上回った。4つの実世界Franka操作タスクでは、平均段階成功率が70.7%から91.5%に向上し、完全タスク成功率が52.5%から80.0%に倍増した。これらの結果は、長期タスクにおける忘却とグローバル状態認識の問題に対する記憶拡張の有効性を明確に示している。

本研究は、将来の複雑な操作タスク研究に新たな方向性を提供し、マルチスケール履歴情報の統合によるロボット意思決定能力の向上を示している。プロジェクトページと論文はarXiv:2606.27677を参照。