線上技能與記憶模組是否總是值得其令牌?一項關於網路代理的預算約束研究
該研究在固定推理預算下重新評估網路代理的線上增強模組,發現與使用相同預算進行更多步數的基線模型相比,AWM、ASI和ReasoningBank等模組並未帶來顯著優勢,其表面增益往往消失。研究強調執行間方差應作為核心評估指標。
來源arXiv Computational Linguistics作者: Sina Hajimiri, Masih Aminbeidokhti, Jose Dolz, Ismail Ben Ayed, Issam H. Laradji, Spandana Gella, Nicolas Gontier
在一項最新的研究中,研究人員對線上網路代理中常用的增強模組進行了預算約束下的重新評估。這些模組,如記憶模組、工作流程模組或技能模組,通常用於提升基座代理的效能,但它們會消耗額外的測試階段令牌,而這一成本在以往的研究中很少被報告。該研究聚焦於線上增強場景,即每次任務都需要支付這些開銷,並在固定總推理預算的條件下重估其收益。
研究團隊將AWM、ASI和ReasoningBank三種代表性增強方法與一個令牌匹配的基線模型進行了對比。基線模型使用相同數量的令牌進行更多步數的推理,但沒有任何外部模組。實驗在WebArena的三個不同領域進行,並使用了三種不同的模型:Gemini 3 Flash、GPT-5.4-mini和Qwen 3.6-27B。結果顯示,基線模型在總體成功率上匹配或超越了所有三種增強方法,同時通常使用更少的令牌。在WorkArena-L1上使用Qwen 3.6-27B時也觀察到了類似趨勢,表明這種效應可以擴充套件到企業級知識工作任務。
研究的主要發現是,技能和工作流記憶體在特定領域可能仍有價值,但其表面上的增益在預算匹配的基線下往往消失。此外,研究還指出,執行間方差對結果有實質性影響,因此應將其作為線上網路代理的核心評估指標進行報告。該研究為代理設計和評估提供了重要參考,提醒社群在報告效能時需考慮令牌成本,並採用更嚴格的統計方法。