LLMエージェントにおける明確化要求のための不確実性分解
本研究は、アクションの確信度とリクエストの不確実性を分離するプロンプトベースの不確実性分解手法を提案し、タスク仕様があいまいな場合にLLMエージェントが明確化を要求できるようにする。著者らは、50%のタスクが意図的に未特定の2つの新しいベンチマークを導入し、5つのLLMでReAct+UEおよびUAMと比較評価し、F1スコアの大幅な改善を示した。
最近、arXivに投稿された論文(ID: 2606.19559)は、大規模言語モデル(LLM)エージェントのための明確化要求を可能にする不確実性分解手法を提案しています。従来の偶発的/認識論的不確実性フレームワークは、対話型LLMエージェントのニーズを満たすには不十分であり、未特定性を考慮し、分解可能で伝達可能な不確実性表現の開発が求められています。
実用的な展開上の制約(ブラックボックスAPI、インタラクティブなレイテンシ予算、ラベル付けされた軌跡の欠如)により、対数確率ベース、マルチサンプリング、トレーニングベースの手法は除外され、プロンプトベースの推定が最も実行可能な選択肢となります。研究者らは、アクションの確信度とリクエストの不確実性を分離するシンプルなプロンプトベースの分解を提案し、エージェントがタスクの仕様があいまいな場合に明確化を要求できるようにしました。
評価のために、2つの新しいベンチマーク(WebShop-ClarificationとALFWorld-Clarification)が導入されました。これらのベンチマークでは、タスクの50%が意図的に未特定に設計されています。提案手法は、ReAct+UE(不確実性認識推論)およびUAM(不確実性認識メモリ)と比較され、GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B、GPT-OSS-120Bの5つのLLMバックボーンで評価されました。
実験は標準のWebShop、ALFWorld、REALベンチマークに加え、故障検出タスクでも行われました。結果として、5つのバックボーン平均で、提案手法はALFWorld-Clarificationにおける明確化F1スコアをReAct+UE比73%、UAM比36%改善しました。WebShop-Clarificationでは全てのバックボーンで、ALFWorld-Clarificationでは5つ中4つのバックボーンでリードし、単一のLLMを超えた汎化が示されました。
本研究は、カスタマーサービス、ロボットナビゲーション、インタラクティブプランニングなど、タスクのあいまいさが一般的な実世界アプリケーションにおいて、よりスマートで適応性の高いAIエージェントの開発に向けた重要な進歩をもたらします。