2026-06-19站内改写1 分鐘閱讀更新: 2026-06-19

面向大語言模型代理的澄清請求的不確定性分解方法

本研究提出一種基於提示的不確定性分解方法，將動作信心與請求不確定性分離，使大語言模型代理能在任務規範模糊時主動請求澄清。作者引入兩個新基準（WebShop-Clarification和ALFWorld-Clarification），其中50%的任務故意未明確指定，並在五個大型語言模型上評估該方法。結果表明，所提分解方法在澄清F1分數上顯著優於現有方法。

來源arXiv AI作者: Gregory Matsnev

文章情報

工程師進階

要點

傳統不確定性框架不足以應對交互式大語言模型代理的需求，需要基於欠規範、可分解且可溝通的不確定性表示。
提出一種簡單的提示分解方法，將動作信心與請求不確定性分離，允許代理在任務模糊時請求澄清。
引入兩個澄清增強基準（WebShop-Clarification和ALFWorld-Clarification），其中一半任務故意欠明確。
在五個大語言模型上評估，所提方法在澄清F1分數上平均比ReAct+UE提高73%，比UAM提高36%。

為甚麼重要

這條新聞值得關注，因為傳統不確定性框架不足以應對交互式大語言模型代理的需求，需要基於欠規範、可分解且可溝通的不確定性表示。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

近日，一篇發表於arXiv的論文（編號2606.19559）提出了一種面向大語言模型（LLM）代理的澄清請求不確定性分解方法。該研究指出，傳統的偶然/認知不確定性框架不足以滿足交互式LLM代理的需求，呼籲開發基於欠規範、可分解且可溝通的不確定性表示，以解鎖主動澄清請求和共享心理模型構建等新能力。

實際部署中存在諸多限制：黑盒API、交互延遲預算以及缺乏標註軌跡，這些因素排除了基於對數概率、多采樣和訓練的方法，使得基於提示的估計成為部署時呈現此類信號的最可行方案。研究人員提出了一種簡單的基於提示的分解方法，將動作信心與請求不確定性分離，從而使代理在任務規範模糊時能夠請求澄清。

為了評估該方法，該團隊引入了兩個澄清增強基準：WebShop-Clarification和ALFWorld-Clarification。在這兩個基準中，50%的任務被故意設計為欠明確，以模擬真實場景中的歧義。他們將所提出的分解方法與ReAct+UE（不確定性感知推理）和UAM（不確定性感知記憶）進行了系統比較，使用了五個LLM骨幹網絡：GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B和GPT-OSS-120B。

實驗在標準WebShop、ALFWorld和REAL基準上進行，並增加了故障檢測任務。結果顯示，平均而言，所提出的分解方法在ALFWorld-Clarification上的澄清F1分數比ReAct+UE提高了73%，比UAM提高了36%。在WebShop-Clarification上，該方法在所有五個骨幹上均領先；在ALFWorld-Clarification上，五個骨幹中有四個領先。這表明該方法的收益超越了單一模型，具有較好的泛化性。

該研究為開發更智能、更具適應性的AI代理提供了重要進展，特別是在任務模糊性普遍存在的實際應用中，如客服、機器人導航和交互式規劃。