2026-03-27 00:03 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

GroundedPlanBench：用于机器人操作的空间基础长期任务规划

微软研究院推出GroundedPlanBench基准测试，评估视觉语言模型在机器人任务中同时规划动作和空间定位的能力。他们开发的V2GP框架可将机器人演示视频转换为训练数据，实验表明联合规划与定位的方法优于分离式方法。

来源Microsoft Research Blog作者: Sehun Jung, HyunJee Song, Dong-Hee Kim, Reuben Tan, Jianfeng Gao, Yong Jae Lee, Donghyun Kim

微软研究院的研究人员提出了GroundedPlanBench，这是一个新的基准测试，旨在评估视觉语言模型（VLM）在机器人操作中的空间基础长期任务规划能力。传统的机器人规划系统通常将任务分解为两个步骤：首先由VLM生成自然语言计划，然后由单独的模型将其转换为可执行的动作。然而，这种分离式方法在处理长周期、复杂任务时常常失败，因为自然语言描述可能存在歧义，甚至出现幻觉，导致动作和位置指定不准确。

为了解决这一问题，团队开发了GroundedPlanBench，该基准测试基于Distributed Robot Interaction Dataset (DROID)中的308个真实机器人操作场景，构建了包含1009个任务的测试集。任务涵盖显式指令（如“将勺子放在白盘子上”）和隐式指令（如“整理桌子”），每个任务的动作被分解为抓取、放置、打开、关闭四种基本操作，并关联到图像中的具体位置框。

同时，研究团队提出了Video-to-Spatially Grounded Planning (V2GP)框架，该框架利用机器人演示视频自动生成空间基础训练数据。V2GP首先通过夹爪信号检测机器人与物体的交互时刻，再使用多模态语言模型生成操作对象的文本描述，然后借助Meta的SAM3模型进行视频中的对象跟踪，最终构建出包含具体位置信息的操作计划。该框架成功生成了43,000个空间基础计划，动作数量从1到26不等。

在评估中，研究团队使用Qwen3-VL作为基础模型，并将其与V2GP训练数据微调后的模型进行对比。结果显示，联合规划与定位的方法在任务成功率（TSR）和动作召回率（ARR）上均显著优于分离式方法。例如，在分离式方法中，由于语言歧义，模型可能将多个“餐巾”动作全部定位到同一个对象上，而联合方法则能准确区分。

这项研究的负责人表示，将规划与定位集成到单一模型中是实现更可靠机器人操作的关键路径。未来，他们计划结合世界模型，使机器人不仅能规划行动和定位，还能预测行动后果，从而在真实世界中做出更可靠的决策。该研究由微软研究院、韩国大学和威斯康星大学麦迪逊分校合作完成，并得到了韩国政府的资助。