唯唯诺诺综合征:具身机器人代理中的弃权行为基准测试
视觉语言模型(VLM)被用作具身代理的高层规划器,但它们在面对模糊、不可行或基于错误前提的指令时往往无法弃权。新提出的RoboAbstention基准框架基于五个机器人数据集的图像生成了6,069条可验证指令,评估发现即使是最先进的模型也表现不佳:Gemini 2.5 Flash仅在39.0%的指令中正确弃权,而具身规划器Gemini Robotics ER 1.6 Preview仅16.5%。防御性提示和上下文学习可将弃权率提升至93.6%以上,但仍未完全解决该问题。
文章情报
要点
- VLM作为机器人规划器时,缺乏对模糊或不可行指令的弃权能力。
- RoboAbstention通过结构化视觉基础、确定性约束推导和模板生成,构建了包含6,069条可验证指令的数据集。
- 最佳模型Gemini 2.5 Flash仅39.0%正确弃权,具身规划器Gemini Robotics ER 1.6 Preview仅16.5%。
- 防御性提示和上下文学习可将弃权率提升至93.6%以上,但尚未完全解决问题。
为什么重要
这条新闻值得关注,因为VLM作为机器人规划器时,缺乏对模糊或不可行指令的弃权能力。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
在机器人领域,视觉语言模型(VLM)常被用作高层规划器,将自然语言指令和视觉观测转化为行动方案。然而,现有的大语言模型(LLM)弃权研究主要集中在纯文本环境,未能考虑具身机器人中的感知基础和物理约束。为此,研究人员提出了一种新的分类法,将弃权情境分为指令模糊、物理不可行、基于错误前提以及感官模态不匹配等类别,并开发了RoboAbstention框架,这是一个可扩展且可审计的基准,用于生成基于五个机器人数据集图像的弃权指令。
RoboAbstention通过三个阶段的流水线实现其分类:第一阶段是结构化视觉基础,通过目标检测和语义分割提取图像中的关键对象及其属性;第二阶段是确定性约束推导,基于机器人运动学和环境物理定律计算指令的可行性;第三阶段是基于类别模板的受控指令生成,针对每种弃权类型生成具有明确真值的测试指令。该方法构建了一个多样化的数据集,包含6,069条具有可验证弃权条件的指令。
研究人员评估了多个前沿VLM,包括Gemini 2.5 Flash、Gemini 1.5 Pro、GPT-5系列以及专为具身任务设计的Gemini Robotics ER 1.6 Preview。结果发现所有模型在弃权方面都存在显著缺陷:表现最好的Gemini 2.5 Flash仅在39.0%的指令上正确弃权,而Gemini Robotics ER 1.6 Preview的弃权率只有16.5%,这意味着该模型在超过80%的情况下会错误地尝试执行不可行或模糊的指令。
为了改善这一问题,研究者尝试了防御性提示和上下文学习等干预措施。防御性提示要求模型在不确定时明确声明无法执行,而上下文学习则提供了少量弃权示例。这些方法显著提升了性能,使Gemini Robotics ER 1.6 Preview的弃权率达到93.6%,GPT 5.4 Mini达到88.6%。然而,没有任何一种方法能完全解决弃权问题,尤其是面对涉及复杂物理推理或高层语义歧义的指令时。研究团队已将RoboAbstention开源,供社区进一步研究,以期推动更安全可靠的具身机器人系统设计。