オンラインスキルおよびメモリモジュールは常にトークンに見合う価値があるのか?ウェブエージェントの予算制約研究
本研究は、固定推論予算の下でウェブエージェントのオンライン拡張モジュールを再評価し、AWM、ASI、ReasoningBankは、同じ予算で追加のアクターステップを使用するトークン一致ベースラインモデルに対して有意な利点を提供しないことを発見しました。ベースラインは、成功率で全拡張手法に匹敵またはそれを上回り、多くの場合、総トークン使用量が少なくなります。この効果は企業の知識作業タスクにも拡張され、実行間分散が重要な評価指標として強調されています。
最新の研究により、オンラインウェブエージェントで一般的に使用される拡張モジュールの有効性が、固定推論予算の下で再評価されました。メモリモジュール、ワークフローモジュール、スキルモジュールなどの拡張は、ベースアクターの性能を向上させることができますが、テスト時のトークンを消費し、このコストは従来の研究ではほとんど報告されていません。本研究では、すべてのタスクでこのオーバーヘッドが発生するオンライン拡張シナリオに焦点を当て、固定総推論予算の下でその利点を再評価しました。
研究チームは、AWM、ASI、ReasoningBankの3つの代表的な拡張手法を、同じトークン数を使用するバニラベースラインと比較しました。ベースラインは外部モジュールを使用せず、同じ予算でより多くの推論ステップを実行します。実験はWebArenaの3つのドメインで実施され、Gemini 3 Flash、GPT-5.4-mini、Qwen 3.6-27Bの3つのモデルが使用されました。結果は、バニラベースラインが全拡張手法の総合成功率に匹敵するか、それを上回り、同時に総トークン使用量も少ないことを示しました。Qwen 3.6-27Bを用いたWorkArena-L1でも同様の傾向が確認され、この効果が企業の知識作業タスクにも拡張されることが示唆されました。
研究の主な発見は、スキルやワークフローメモリは特定のドメインでは有用であり得るが、予算が一致したベースラインに対してはその見かけ上の利点が消失する傾向があることです。さらに、実行間分散が結果に実質的な影響を与えることが示され、これはオンラインウェブエージェントの中核評価基準として報告されるべきであると提案されています。この研究は、エージェントの設計と評価に重要な示唆を提供し、コミュニティに対して性能報告の際にトークンコストを考慮し、より厳密な統計手法を採用するよう促しています。