2026-03-27 00:03 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

GroundedPlanBench：用於機器人操作的空間基礎長期任務規劃

微軟研究院推出GroundedPlanBench基準測試，評估視覺語言模型在機器人任務中同時規劃動作和空間定位的能力。他們開發的V2GP框架可將機器人演示影片轉換為訓練資料，實驗表明聯合規劃與定位的方法優於分離式方法。

來源Microsoft Research Blog作者: Sehun Jung, HyunJee Song, Dong-Hee Kim, Reuben Tan, Jianfeng Gao, Yong Jae Lee, Donghyun Kim

微軟研究院的研究人員提出了GroundedPlanBench，這是一個新的基準測試，旨在評估視覺語言模型（VLM）在機器人操作中的空間基礎長期任務規劃能力。傳統的機器人規劃系統通常將任務分解為兩個步驟：首先由VLM生成自然語言計劃，然後由單獨的模型將其轉換為可執行的動作。然而，這種分離式方法在處理長週期、複雜任務時常常失敗，因為自然語言描述可能存在歧義，甚至出現幻覺，導致動作和位置指定不準確。

為了解決這一問題，團隊開發了GroundedPlanBench，該基準測試基於Distributed Robot Interaction Dataset (DROID)中的308個真實機器人操作場景，構建了包含1009個任務的測試集。任務涵蓋顯式指令（如“將勺子放在白盤子上”）和隱式指令（如“整理桌子”），每個任務的動作被分解為抓取、放置、開啟、關閉四種基本操作，並關聯到影像中的具體位置框。

同時，研究團隊提出了Video-to-Spatially Grounded Planning (V2GP)框架，該框架利用機器人演示影片自動生成空間基礎訓練資料。V2GP首先透過夾爪訊號檢測機器人與物體的互動時刻，再使用多模態語言模型生成操作物件的文本描述，然後藉助Meta的SAM3模型進行影片中的物件跟蹤，最終構建出包含具體位置資訊的操作計劃。該框架成功生成了43,000個空間基礎計劃，動作數量從1到26不等。

在評估中，研究團隊使用Qwen3-VL作為基礎模型，並將其與V2GP訓練資料微調後的模型進行對比。結果顯示，聯合規劃與定位的方法在任務成功率（TSR）和動作召回率（ARR）上均顯著優於分離式方法。例如，在分離式方法中，由於語言歧義，模型可能將多個“餐巾”動作全部定位到同一個物件上，而聯合方法則能準確區分。

這項研究的負責人表示，將規劃與定位整合到單一模型中是實現更可靠機器人操作的關鍵路徑。未來，他們計劃結合世界模型，使機器人不僅能規劃行動和定位，還能預測行動後果，從而在真實世界中做出更可靠的決策。該研究由微軟研究院、韓國大學和威斯康星大學麥迪遜分校合作完成，並得到了韓國政府的資助。