2026-05-21 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

イエスマン症候群：身体化ロボットエージェントにおける棄権のベンチマーク

視覚言語モデル（VLM）はロボットの高層プランナーとして使われるが、曖昧で実現不可能な指示に対して棄権する能力が不足している。新しいRoboAbstentionベンチマークは、5つのロボットデータセットの画像に基づく6,069の検証可能な指示を生成し、最先端のVLMでもパフォーマンスが低いことを明らかにした。Gemini 2.5 Flashは39.0%でしか棄権せず、Gemini Robotics ER 1.6 Previewは16.5%だった。防御的プロンプティングやインコンテキスト学習により棄権率は93.6%以上に向上するが、完全には解決されていない。

ソースarXiv Robotics著者: Doguhan Yeke, Elif Su Temirel, Ananth Shreekumar, Brandon Lee, Dongyan Xu, Z Berkay Celik

記事インテリジェンス

エンジニア上級

要点

ロボットプランナーとしてのVLMは、曖昧な指示や物理的に不可能な指示を棄権する能力に欠ける。
RoboAbstentionは、構造化視覚グラウンディング、決定論的制約導出、テンプレート生成の3段階パイプラインで6,069の検証可能な指示を生成。
最高性能モデル（Gemini 2.5 Flash）の棄権率は39.0%、Gemini Robotics ER 1.6 Previewは16.5%に留まる。
防御的プロンプティングとインコンテキスト学習により棄権率は93.6%以上に向上するが、完全な解決には至らない。

重要な理由

このニュースが重要なのは、ロボットプランナーとしてのVLMは、曖昧な指示や物理的に不可能な指示を棄権する能力に欠けるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

ロボット工学の分野では、視覚言語モデル（VLM）が高レベルプランナーとして使用され、自然言語の指示と視覚観測を行動計画に変換しています。しかし、従来の大規模言語モデル（LLM）の棄権研究は主にテキストのみの環境に限定されており、身体化ロボット環境に固有の知覚的基盤や物理的制約を捉えていません。このギャップに対処するため、研究者らは身体化ロボットにおける棄権の分類法を導入しました。この分類法は、指示が曖昧である、物理的に不可能である、誤った前提に基づく、または利用可能な感覚モダリティでは解決できないという状況をカバーしています。そして、5つのロボットデータセットから収集した画像に基づいて棄権指示を生成するスケーラブルで監査可能なフレームワーク「RoboAbstention」を提案しました。

RoboAbstentionは、構造化視覚グラウンディング（物体検出とセマンティックセグメンテーションによる画像中の重要オブジェクトとその属性の抽出）、決定論的制約導出（ロボットの運動学と環境物理法則に基づく指示の実現可能性計算）、およびカテゴリ別テンプレートによる制御された指示生成の3段階パイプラインを通じて分類法を具体化します。これにより、検証可能な棄権条件を持つ多様なデータセット（6,069件の指示）が構築されました。

複数の最先端VLM（Gemini 2.5 Flash、Gemini 1.5 Pro、GPT-5シリーズ、Gemini Robotics ER 1.6 Previewなど）を評価した結果、すべてのモデルが棄権に重大な弱点を示しました。最良のモデルであるGemini 2.5 Flashは39.0%の指示でしか棄権せず、身体化プランナーとして設計されたGemini Robotics ER 1.6 Previewはわずか16.5%でした。これは、このモデルが80%以上のケースで実行不可能または曖昧な指示を誤って実行しようとすることを意味します。

研究者らは、防御的プロンプティング（不確かな場合に実行できないと明示的に宣言するよう促す）やインコンテキスト学習（少数の棄権例を提供）などの改善手法も探索しました。これらの介入によりパフォーマンスは大幅に向上し、Gemini Robotics ER 1.6 Previewでは93.6%、GPT 5.4 Miniでは88.6%の棄権率に達しました。しかし、複雑な物理推論や高レベルの意味的曖昧性を含む指示に対しては、完全に問題を解決するアプローチはありませんでした。RoboAbstentionはオープンソースとして公開されており、より安全で信頼性の高い身体化ロボットシステムの設計に向けた研究を促進することが期待されています。