2026-05-21 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

唯唯諾諾綜合徵：具身機器人代理中的棄權行為基準測試

視覺語言模型（VLM）被用作具身代理的高層規劃器，但它們在面對模糊、不可行或基於錯誤前提的指令時往往無法棄權。新提出的RoboAbstention基準框架基於五個機器人數據集的圖像生成了6,069條可驗證指令，評估發現即使是最先進的模型也表現不佳：Gemini 2.5 Flash僅在39.0%的指令中正確棄權，而具身規劃器Gemini Robotics ER 1.6 Preview僅16.5%。防禦性提示和上下文學習可將棄權率提升至93.6%以上，但仍未完全解決該問題。

來源arXiv Robotics作者: Doguhan Yeke, Elif Su Temirel, Ananth Shreekumar, Brandon Lee, Dongyan Xu, Z Berkay Celik

在機器人領域，視覺語言模型（VLM）常被用作高層規劃器，將自然語言指令和視覺觀測轉化為行動方案。然而，現有的大語言模型（LLM）棄權研究主要集中在純文本環境，未能考慮具身機器人中的感知基礎和物理約束。為此，研究人員提出了一種新的分類法，將棄權情境分為指令模糊、物理不可行、基於錯誤前提以及感官模態不匹配等類別，並開發了RoboAbstention框架，這是一個可擴展且可審計的基準，用於生成基於五個機器人數據集圖像的棄權指令。

RoboAbstention通過三個階段的流水線實現其分類：第一階段是結構化視覺基礎，通過目標檢測和語義分割提取圖像中的關鍵對象及其屬性；第二階段是確定性約束推導，基於機器人運動學和環境物理定律計算指令的可行性；第三階段是基於類別模板的受控指令生成，針對每種棄權類型生成具有明確真值的測試指令。該方法構建了一個多樣化的數據集，包含6,069條具有可驗證棄權條件的指令。

研究人員評估了多個前沿VLM，包括Gemini 2.5 Flash、Gemini 1.5 Pro、GPT-5系列以及專為具身任務設計的Gemini Robotics ER 1.6 Preview。結果發現所有模型在棄權方面都存在顯著缺陷：表現最好的Gemini 2.5 Flash僅在39.0%的指令上正確棄權，而Gemini Robotics ER 1.6 Preview的棄權率只有16.5%，這意味着該模型在超過80%的情況下會錯誤地嘗試執行不可行或模糊的指令。

為了改善這一問題，研究者嘗試了防禦性提示和上下文學習等干預措施。防禦性提示要求模型在不確定時明確聲明無法執行，而上下文學習則提供了少量棄權示例。這些方法顯著提升了性能，使Gemini Robotics ER 1.6 Preview的棄權率達到93.6%，GPT 5.4 Mini達到88.6%。然而，沒有任何一種方法能完全解決棄權問題，尤其是面對涉及複雜物理推理或高層語義歧義的指令時。研究團隊已將RoboAbstention開源，供社區進一步研究，以期推動更安全可靠的具身機器人系統設計。