在線技能與記憶模塊是否總是值得其令牌?一項關於網絡代理的預算約束研究
該研究在固定推理預算下重新評估網絡代理的在線增強模塊,發現與使用相同預算進行更多步數的基線模型相比,AWM、ASI和ReasoningBank等模塊並未帶來顯著優勢,其表面增益往往消失。研究強調運行間方差應作為核心評估指標。
來源arXiv Computational Linguistics作者: Sina Hajimiri, Masih Aminbeidokhti, Jose Dolz, Ismail Ben Ayed, Issam H. Laradji, Spandana Gella, Nicolas Gontier
在一項最新的研究中,研究人員對在線網絡代理中常用的增強模塊進行了預算約束下的重新評估。這些模塊,如記憶模塊、工作流程模塊或技能模塊,通常用於提升基座代理的性能,但它們會消耗額外的測試階段令牌,而這一成本在以往的研究中很少被報告。該研究聚焦於在線增強場景,即每次任務都需要支付這些開銷,並在固定總推理預算的條件下重估其收益。
研究團隊將AWM、ASI和ReasoningBank三種代表性增強方法與一個令牌匹配的基線模型進行了對比。基線模型使用相同數量的令牌進行更多步數的推理,但沒有任何外部模塊。實驗在WebArena的三個不同領域進行,並使用了三種不同的模型:Gemini 3 Flash、GPT-5.4-mini和Qwen 3.6-27B。結果顯示,基線模型在總體成功率上匹配或超越了所有三種增強方法,同時通常使用更少的令牌。在WorkArena-L1上使用Qwen 3.6-27B時也觀察到了類似趨勢,表明這種效應可以擴展到企業級知識工作任務。
研究的主要發現是,技能和工作流內存在特定領域可能仍有價值,但其表面上的增益在預算匹配的基線下往往消失。此外,研究還指出,運行間方差對結果有實質性影響,因此應將其作為在線網絡代理的核心評估指標進行報告。該研究為代理設計和評估提供了重要參考,提醒社區在報告性能時需考慮令牌成本,並採用更嚴格的統計方法。