AI News HubLIVE
站内改写1 分钟阅读

在线技能与记忆模块是否总是值得其令牌?一项关于网络代理的预算约束研究

该研究在固定推理预算下重新评估网络代理的在线增强模块,发现与使用相同预算进行更多步数的基线模型相比,AWM、ASI和ReasoningBank等模块并未带来显著优势,其表面增益往往消失。研究强调运行间方差应作为核心评估指标。

来源arXiv Computational Linguistics作者: Sina Hajimiri, Masih Aminbeidokhti, Jose Dolz, Ismail Ben Ayed, Issam H. Laradji, Spandana Gella, Nicolas Gontier

在一项最新的研究中,研究人员对在线网络代理中常用的增强模块进行了预算约束下的重新评估。这些模块,如记忆模块、工作流程模块或技能模块,通常用于提升基座代理的性能,但它们会消耗额外的测试阶段令牌,而这一成本在以往的研究中很少被报告。该研究聚焦于在线增强场景,即每次任务都需要支付这些开销,并在固定总推理预算的条件下重估其收益。

研究团队将AWM、ASI和ReasoningBank三种代表性增强方法与一个令牌匹配的基线模型进行了对比。基线模型使用相同数量的令牌进行更多步数的推理,但没有任何外部模块。实验在WebArena的三个不同领域进行,并使用了三种不同的模型:Gemini 3 Flash、GPT-5.4-mini和Qwen 3.6-27B。结果显示,基线模型在总体成功率上匹配或超越了所有三种增强方法,同时通常使用更少的令牌。在WorkArena-L1上使用Qwen 3.6-27B时也观察到了类似趋势,表明这种效应可以扩展到企业级知识工作任务。

研究的主要发现是,技能和工作流内存在特定领域可能仍有价值,但其表面上的增益在预算匹配的基线下往往消失。此外,研究还指出,运行间方差对结果有实质性影响,因此应将其作为在线网络代理的核心评估指标进行报告。该研究为代理设计和评估提供了重要参考,提醒社区在报告性能时需考虑令牌成本,并采用更严格的统计方法。