2026-03-27 01:03 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

GroundedPlanBench：ロボット操作のための空間的に接地された長期タスク計画

Microsoft Researchは、視覚言語モデルがロボットタスクにおいて行動計画と空間定位を同時に行う能力を評価するベンチマーク「GroundedPlanBench」を発表した。彼らが開発したV2GPフレームワークは、ロボットのデモ動画をトレーニングデータに変換し、結合型アプローチが分離型よりも優れていることを示した。

ソースMicrosoft Research Blog著者: Sehun Jung, HyunJee Song, Dong-Hee Kim, Reuben Tan, Jianfeng Gao, Yong Jae Lee, Donghyun Kim

Microsoft Researchの研究者らは、ロボット操作における視覚言語モデル（VLM）の空間的に接地された長期タスク計画能力を評価する新しいベンチマーク「GroundedPlanBench」を提案した。従来のロボット計画システムは、VLMが自然言語で計画を生成し、別のモデルがそれを実行可能な行動に変換する2段階アプローチを採用しているが、長期の複雑なタスクでは、自然言語の曖昧さや幻覚により、動作と位置の指定が不正確になりがちである。

この問題に対処するため、研究チームはDistributed Robot Interaction Dataset (DROID) の308のロボット操作シーンに基づくベンチマークを構築し、1009のタスクを含むテストセットを作成した。タスクは明示的な指示（例：「スプーンを白い皿に置く」）と暗黙的な指示（例：「テーブルを片付ける」）の両方を含み、各タスクの行動は「掴む」「置く」「開ける」「閉める」の4つの基本動作に分解され、画像内の特定の位置に関連付けられている。

さらに、研究チームはVideo-to-Spatially Grounded Planning (V2GP) フレームワークを開発した。このフレームワークは、ロボットのデモ動画から自動的に空間的に接地されたトレーニングデータを生成する。V2GPはまずグリッパーの信号を使ってロボットと物体の相互作用の瞬間を検出し、マルチモーダル言語モデルで操作対象のテキスト記述を生成する。次に、MetaのSAM3モデルを用いてビデオ内の物体追跡を行い、物体が掴まれた位置と置かれた位置を特定して接地された計画を構築する。このフレームワークにより、1～26のアクションからなる43,000の接地された計画が生成された。

評価実験では、Qwen3-VLをベースモデルとして使用し、V2GPのトレーニングデータで微調整したモデルと分離型アプローチを比較した。その結果、計画と接地を統合したアプローチは、タスク成功率（TSR）と行動再現率（ARR）の両方で分離型を大幅に上回ることが示された。例えば、分離型では言語の曖昧さから複数の「ナプキン」動作が同じ物体に接地されるエラーが発生したが、統合型では正確に区別できた。

研究責任者は、計画と接地を単一のモデルに統合することが、実世界での信頼性の高いロボット操作への鍵であると述べている。今後は、世界モデルと組み合わせることで、ロボットが行動の結果を予測できるようにし、より堅牢な意思決定を目指す。本研究はMicrosoft Research、韓国大学、ウィスコンシン大学マディソン校の共同研究であり、韓国政府の助成を受けている。