AI News HubLIVE
站内改写1 分钟阅读

面向大语言模型代理的澄清请求的不确定性分解方法

本研究提出一种基于提示的不确定性分解方法,将动作信心与请求不确定性分离,使大语言模型代理能在任务规范模糊时主动请求澄清。作者引入两个新基准(WebShop-Clarification和ALFWorld-Clarification),其中50%的任务故意未明确指定,并在五个大型语言模型上评估该方法。结果表明,所提分解方法在澄清F1分数上显著优于现有方法。

来源arXiv AI作者: Gregory Matsnev

近日,一篇发表于arXiv的论文(编号2606.19559)提出了一种面向大语言模型(LLM)代理的澄清请求不确定性分解方法。该研究指出,传统的偶然/认知不确定性框架不足以满足交互式LLM代理的需求,呼吁开发基于欠规范、可分解且可沟通的不确定性表示,以解锁主动澄清请求和共享心理模型构建等新能力。

实际部署中存在诸多限制:黑盒API、交互延迟预算以及缺乏标注轨迹,这些因素排除了基于对数概率、多采样和训练的方法,使得基于提示的估计成为部署时呈现此类信号的最可行方案。研究人员提出了一种简单的基于提示的分解方法,将动作信心与请求不确定性分离,从而使代理在任务规范模糊时能够请求澄清。

为了评估该方法,该团队引入了两个澄清增强基准:WebShop-Clarification和ALFWorld-Clarification。在这两个基准中,50%的任务被故意设计为欠明确,以模拟真实场景中的歧义。他们将所提出的分解方法与ReAct+UE(不确定性感知推理)和UAM(不确定性感知记忆)进行了系统比较,使用了五个LLM骨干网络:GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B和GPT-OSS-120B。

实验在标准WebShop、ALFWorld和REAL基准上进行,并增加了故障检测任务。结果显示,平均而言,所提出的分解方法在ALFWorld-Clarification上的澄清F1分数比ReAct+UE提高了73%,比UAM提高了36%。在WebShop-Clarification上,该方法在所有五个骨干上均领先;在ALFWorld-Clarification上,五个骨干中有四个领先。这表明该方法的收益超越了单一模型,具有较好的泛化性。

该研究为开发更智能、更具适应性的AI代理提供了重要进展,特别是在任务模糊性普遍存在的实际应用中,如客服、机器人导航和交互式规划。