2026-06-19站内改写1 分钟阅读更新: 2026-06-19

面向大语言模型代理的澄清请求的不确定性分解方法

本研究提出一种基于提示的不确定性分解方法，将动作信心与请求不确定性分离，使大语言模型代理能在任务规范模糊时主动请求澄清。作者引入两个新基准（WebShop-Clarification和ALFWorld-Clarification），其中50%的任务故意未明确指定，并在五个大型语言模型上评估该方法。结果表明，所提分解方法在澄清F1分数上显著优于现有方法。

来源arXiv AI作者: Gregory Matsnev

文章情报

工程师进阶

要点

传统不确定性框架不足以应对交互式大语言模型代理的需求，需要基于欠规范、可分解且可沟通的不确定性表示。
提出一种简单的提示分解方法，将动作信心与请求不确定性分离，允许代理在任务模糊时请求澄清。
引入两个澄清增强基准（WebShop-Clarification和ALFWorld-Clarification），其中一半任务故意欠明确。
在五个大语言模型上评估，所提方法在澄清F1分数上平均比ReAct+UE提高73%，比UAM提高36%。

为什么重要

这条新闻值得关注，因为传统不确定性框架不足以应对交互式大语言模型代理的需求，需要基于欠规范、可分解且可沟通的不确定性表示。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

近日，一篇发表于arXiv的论文（编号2606.19559）提出了一种面向大语言模型（LLM）代理的澄清请求不确定性分解方法。该研究指出，传统的偶然/认知不确定性框架不足以满足交互式LLM代理的需求，呼吁开发基于欠规范、可分解且可沟通的不确定性表示，以解锁主动澄清请求和共享心理模型构建等新能力。

实际部署中存在诸多限制：黑盒API、交互延迟预算以及缺乏标注轨迹，这些因素排除了基于对数概率、多采样和训练的方法，使得基于提示的估计成为部署时呈现此类信号的最可行方案。研究人员提出了一种简单的基于提示的分解方法，将动作信心与请求不确定性分离，从而使代理在任务规范模糊时能够请求澄清。

为了评估该方法，该团队引入了两个澄清增强基准：WebShop-Clarification和ALFWorld-Clarification。在这两个基准中，50%的任务被故意设计为欠明确，以模拟真实场景中的歧义。他们将所提出的分解方法与ReAct+UE（不确定性感知推理）和UAM（不确定性感知记忆）进行了系统比较，使用了五个LLM骨干网络：GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B和GPT-OSS-120B。

实验在标准WebShop、ALFWorld和REAL基准上进行，并增加了故障检测任务。结果显示，平均而言，所提出的分解方法在ALFWorld-Clarification上的澄清F1分数比ReAct+UE提高了73%，比UAM提高了36%。在WebShop-Clarification上，该方法在所有五个骨干上均领先；在ALFWorld-Clarification上，五个骨干中有四个领先。这表明该方法的收益超越了单一模型，具有较好的泛化性。

该研究为开发更智能、更具适应性的AI代理提供了重要进展，特别是在任务模糊性普遍存在的实际应用中，如客服、机器人导航和交互式规划。