2026-06-01 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

MAVEN：エージェントツール呼び出しにおける汎化の向上

MAVEN（モジュラーエージェント検証・実行ネットワーク）は、構造化分解、適応型ツールオーケストレーション、中間検証を通じて、ツール呼び出し環境における汎化を強化する軽量な記号的推論フレームワークです。MAVEN-Benchストレステストでは、MAVENはGPT-OSS-120bベースモデルの精度を追加トレーニングなしで48%から71%に向上させ、オープンウェイトバックボーンを使用してプロプライエタリベースラインの約10分の1のコストで競争力を維持します。

ソースarXiv AI著者: Omkar Ghugarkar, Vishvesh Bhat, Muhammad Ahmed Mohsin, Asad Aali

記事インテリジェンス

エンジニア上級

要点

MAVENはエージェントツール呼び出しの汎化を改善する軽量な記号的推論フレームワークです。
MAVEN-Benchでは、MAVENはGPT-OSS-120bの精度を48%から71%に追加トレーニングなしで向上させました。
MAVENはオープンウェイトバックボーンを使用し、コストはプロプライエタリモデルの約10分の1です。

重要な理由

このニュースが重要なのは、MAVENはエージェントツール呼び出しの汎化を改善する軽量な記号的推論フレームワークですためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模言語モデル（LLM）は個々のベンチマークで優れた結果を示していますが、複数のドメインにわたって推論戦略を構成し、中間状態を保持し、ツールを調整する能力はまだ十分に探求されていません。この課題に対処するため、研究者らはMAVEN（Modular Agentic Verification and Execution Network、モジュラーエージェント検証・実行ネットワーク）を提案しました。これは、構造化分解、適応型ツールオーケストレーション、および中間検証を通じて、ツール呼び出し環境における汎化を強化する軽量な記号的推論フレームワークです。

MAVENの核心的な革新はそのモジュラー設計にあります。このフレームワークは複雑なタスクをより小さなサブタスクに分解し、各サブタスクに専用のツールと検証ステップを割り当てます。この構造化されたアプローチにより、システムは各ステップで中間チェックを行い、推論プロセスの正確性を確保し、必要に応じてバックトラックや調整が可能になります。さらに、MAVENの適応型ツールオーケストレーション機構は、タスクの要件に応じて動的に適切なツールを選択するため、固定されたツールシーケンスへの依存を回避します。

MAVENの性能を評価するため、研究チームはBFCL v3、TauBench、Tau2Bench、AceBenchなどの既存のベンチマークで実験を行い、さらに新しいストレステストベンチマークであるMAVEN-Benchを導入しました。MAVEN-Benchは、明示的な検証ステップと敵対的なタスク構成を含む多段階の数学的・物理的推論を評価するために設計されています。実験結果は顕著でした：MAVEN-Benchを直接実行した場合、MAVENはベースモデルGPT-OSS-120bの精度を追加トレーニングなしで48%から71%に向上させました。

さらに注目すべき点は、MAVENがオープンウェイトモデル（GPT-OSS-120b）を使用しながら、最先端のプロプライエタリベースラインと同等の性能を維持し、コストはその約10分の1であることです。この結果は、軽量で検証中心の推論フレームワークが構成推論を強化し、エージェントのプロセス重視の評価を促進する可能性を示しています。

MAVENの提案は、エージェントツール呼び出しの汎化問題に対する実行可能な解決策を提供します。モジュラー分解と中間検証を強調することで、このフレームワークは性能を向上させるだけでなく、計算コストを削減し、将来的により信頼性が高く効率的なエージェントシステムの基盤を築きます。