MAVEN:エージェントツール呼び出しにおける汎化の向上
MAVEN(モジュラーエージェント検証・実行ネットワーク)は、構造化分解、適応型ツールオーケストレーション、中間検証を通じて、ツール呼び出し環境における汎化を強化する軽量な記号的推論フレームワークです。MAVEN-Benchストレステストでは、MAVENはGPT-OSS-120bベースモデルの精度を追加トレーニングなしで48%から71%に向上させ、オープンウェイトバックボーンを使用してプロプライエタリベースラインの約10分の1のコストで競争力を維持します。
大規模言語モデル(LLM)は個々のベンチマークで優れた結果を示していますが、複数のドメインにわたって推論戦略を構成し、中間状態を保持し、ツールを調整する能力はまだ十分に探求されていません。この課題に対処するため、研究者らはMAVEN(Modular Agentic Verification and Execution Network、モジュラーエージェント検証・実行ネットワーク)を提案しました。これは、構造化分解、適応型ツールオーケストレーション、および中間検証を通じて、ツール呼び出し環境における汎化を強化する軽量な記号的推論フレームワークです。
MAVENの核心的な革新はそのモジュラー設計にあります。このフレームワークは複雑なタスクをより小さなサブタスクに分解し、各サブタスクに専用のツールと検証ステップを割り当てます。この構造化されたアプローチにより、システムは各ステップで中間チェックを行い、推論プロセスの正確性を確保し、必要に応じてバックトラックや調整が可能になります。さらに、MAVENの適応型ツールオーケストレーション機構は、タスクの要件に応じて動的に適切なツールを選択するため、固定されたツールシーケンスへの依存を回避します。
MAVENの性能を評価するため、研究チームはBFCL v3、TauBench、Tau2Bench、AceBenchなどの既存のベンチマークで実験を行い、さらに新しいストレステストベンチマークであるMAVEN-Benchを導入しました。MAVEN-Benchは、明示的な検証ステップと敵対的なタスク構成を含む多段階の数学的・物理的推論を評価するために設計されています。実験結果は顕著でした:MAVEN-Benchを直接実行した場合、MAVENはベースモデルGPT-OSS-120bの精度を追加トレーニングなしで48%から71%に向上させました。
さらに注目すべき点は、MAVENがオープンウェイトモデル(GPT-OSS-120b)を使用しながら、最先端のプロプライエタリベースラインと同等の性能を維持し、コストはその約10分の1であることです。この結果は、軽量で検証中心の推論フレームワークが構成推論を強化し、エージェントのプロセス重視の評価を促進する可能性を示しています。
MAVENの提案は、エージェントツール呼び出しの汎化問題に対する実行可能な解決策を提供します。モジュラー分解と中間検証を強調することで、このフレームワークは性能を向上させるだけでなく、計算コストを削減し、将来的により信頼性が高く効率的なエージェントシステムの基盤を築きます。