唯唯諾諾綜合徵:具身機器人代理中的棄權行為基準測試
視覺語言模型(VLM)被用作具身代理的高層規劃器,但它們在面對模糊、不可行或基於錯誤前提的指令時往往無法棄權。新提出的RoboAbstention基準框架基於五個機器人數據集的圖像生成了6,069條可驗證指令,評估發現即使是最先進的模型也表現不佳:Gemini 2.5 Flash僅在39.0%的指令中正確棄權,而具身規劃器Gemini Robotics ER 1.6 Preview僅16.5%。防禦性提示和上下文學習可將棄權率提升至93.6%以上,但仍未完全解決該問題。
文章情報
要點
- VLM作為機器人規劃器時,缺乏對模糊或不可行指令的棄權能力。
- RoboAbstention通過結構化視覺基礎、確定性約束推導和模板生成,構建了包含6,069條可驗證指令的數據集。
- 最佳模型Gemini 2.5 Flash僅39.0%正確棄權,具身規劃器Gemini Robotics ER 1.6 Preview僅16.5%。
- 防禦性提示和上下文學習可將棄權率提升至93.6%以上,但尚未完全解決問題。
為甚麼重要
這條新聞值得關注,因為VLM作為機器人規劃器時,缺乏對模糊或不可行指令的棄權能力。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
在機器人領域,視覺語言模型(VLM)常被用作高層規劃器,將自然語言指令和視覺觀測轉化為行動方案。然而,現有的大語言模型(LLM)棄權研究主要集中在純文本環境,未能考慮具身機器人中的感知基礎和物理約束。為此,研究人員提出了一種新的分類法,將棄權情境分為指令模糊、物理不可行、基於錯誤前提以及感官模態不匹配等類別,並開發了RoboAbstention框架,這是一個可擴展且可審計的基準,用於生成基於五個機器人數據集圖像的棄權指令。
RoboAbstention通過三個階段的流水線實現其分類:第一階段是結構化視覺基礎,通過目標檢測和語義分割提取圖像中的關鍵對象及其屬性;第二階段是確定性約束推導,基於機器人運動學和環境物理定律計算指令的可行性;第三階段是基於類別模板的受控指令生成,針對每種棄權類型生成具有明確真值的測試指令。該方法構建了一個多樣化的數據集,包含6,069條具有可驗證棄權條件的指令。
研究人員評估了多個前沿VLM,包括Gemini 2.5 Flash、Gemini 1.5 Pro、GPT-5系列以及專為具身任務設計的Gemini Robotics ER 1.6 Preview。結果發現所有模型在棄權方面都存在顯著缺陷:表現最好的Gemini 2.5 Flash僅在39.0%的指令上正確棄權,而Gemini Robotics ER 1.6 Preview的棄權率只有16.5%,這意味着該模型在超過80%的情況下會錯誤地嘗試執行不可行或模糊的指令。
為了改善這一問題,研究者嘗試了防禦性提示和上下文學習等干預措施。防禦性提示要求模型在不確定時明確聲明無法執行,而上下文學習則提供了少量棄權示例。這些方法顯著提升了性能,使Gemini Robotics ER 1.6 Preview的棄權率達到93.6%,GPT 5.4 Mini達到88.6%。然而,沒有任何一種方法能完全解決棄權問題,尤其是面對涉及複雜物理推理或高層語義歧義的指令時。研究團隊已將RoboAbstention開源,供社區進一步研究,以期推動更安全可靠的具身機器人系統設計。