面向大語言模型代理的澄清請求的不確定性分解方法
本研究提出一種基於提示的不確定性分解方法,將動作信心與請求不確定性分離,使大語言模型代理能在任務規範模糊時主動請求澄清。作者引入兩個新基準(WebShop-Clarification和ALFWorld-Clarification),其中50%的任務故意未明確指定,並在五個大型語言模型上評估該方法。結果表明,所提分解方法在澄清F1分數上顯著優於現有方法。
近日,一篇發表於arXiv的論文(編號2606.19559)提出了一種面向大語言模型(LLM)代理的澄清請求不確定性分解方法。該研究指出,傳統的偶然/認知不確定性框架不足以滿足交互式LLM代理的需求,呼籲開發基於欠規範、可分解且可溝通的不確定性表示,以解鎖主動澄清請求和共享心理模型構建等新能力。
實際部署中存在諸多限制:黑盒API、交互延遲預算以及缺乏標註軌跡,這些因素排除了基於對數概率、多采樣和訓練的方法,使得基於提示的估計成為部署時呈現此類信號的最可行方案。研究人員提出了一種簡單的基於提示的分解方法,將動作信心與請求不確定性分離,從而使代理在任務規範模糊時能夠請求澄清。
為了評估該方法,該團隊引入了兩個澄清增強基準:WebShop-Clarification和ALFWorld-Clarification。在這兩個基準中,50%的任務被故意設計為欠明確,以模擬真實場景中的歧義。他們將所提出的分解方法與ReAct+UE(不確定性感知推理)和UAM(不確定性感知記憶)進行了系統比較,使用了五個LLM骨幹網絡:GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B和GPT-OSS-120B。
實驗在標準WebShop、ALFWorld和REAL基準上進行,並增加了故障檢測任務。結果顯示,平均而言,所提出的分解方法在ALFWorld-Clarification上的澄清F1分數比ReAct+UE提高了73%,比UAM提高了36%。在WebShop-Clarification上,該方法在所有五個骨幹上均領先;在ALFWorld-Clarification上,五個骨幹中有四個領先。這表明該方法的收益超越了單一模型,具有較好的泛化性。
該研究為開發更智能、更具適應性的AI代理提供了重要進展,特別是在任務模糊性普遍存在的實際應用中,如客服、機器人導航和交互式規劃。