强化智能体:工具调用智能体的推理时反馈
苹果研究团队提出一种在推理时将评估引入执行循环的方法,通过专门的评审智能体在工具调用前进行预评估,从而实时纠正错误。实验表明,该方法在BFCL和τ2-Bench上分别提升5.5%和7.1%,并引入了有用性-有害性指标来量化纠错带来的收益与风险。
苹果机器学习研究团队在ACL 2026的第五届自然语言生成、评估与指标研讨会上发表了一篇论文,提出了一种名为“强化智能体”的方法,旨在通过推理时反馈提升工具调用智能体的性能。传统上,大型语言模型(LLM)的轨迹评估是在事后进行的,与执行循环脱节,无法实时纠正智能体的错误。为了弥补这一差距,研究人员将评估移至推理时的执行循环中:一个专门的评审智能体在工具调用执行前对临时调用进行评估,从而将范式从事后恢复转变为主动评估和错误缓解。
该方法建立了一个主执行智能体与副评审智能体之间的清晰职责分离。然而,与任何多智能体系统一样,评审智能体在纠正错误的同时也可能引入新错误。为了量化这一权衡,研究团队引入了有用性-有害性指标:有用性衡量反馈纠正的基础智能体错误百分比,有害性衡量反馈降低的正确响应百分比。这些指标直接指导评审智能体的设计,揭示给定模型或提示是否提供净正面价值。
研究团队在BFCL(单轮)和τ2-Bench(多轮状态场景)上评估了该方法,在无关性检测上实现了+5.5%的提升,在多轮任务上实现了+7.1%的提升。指标显示,评审模型的选择至关重要:推理模型o3-mini实现了3:1的效益风险比,而GPT-4o为2.1:1。通过GEPA进行自动提示优化额外带来了1.5-2.8%的提升。这些结果展示了分离执行与评审的核心优势:评审智能体可以通过模型选择和提示优化进行系统性改进,而无需重新训练基础智能体。
这一方法的意义在于,它将评估从被动的事后分析转变为主动的实时干预,使得智能体在执行过程中能够即时纠正错误,从而显著提升工具调用的准确性。此外,有用性-有害性指标为多智能体系统的评估提供了新的视角,有助于平衡纠错收益与引入新错误的风险。未来,这一方法有望在更多复杂的智能体任务中得到应用,推动工具调用智能体向更可靠、更高效的方向发展。