2026-06-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

MAVEN：提升智能体工具调用中的泛化能力

MAVEN（模块化智能体验证与执行网络）是一种轻量级符号推理框架，旨在通过结构化分解、自适应工具编排和中间验证来增强智能体在工具调用环境中的泛化能力。在MAVEN-Bench压力测试中，MAVEN将GPT-OSS-120b基础模型的准确率从48%提升至71%，且无需额外训练。该框架在使用开源模型的情况下，成本仅为专有模型的1/10，展现了轻量级验证中心框架在组合推理方面的潜力。

来源arXiv AI作者: Omkar Ghugarkar, Vishvesh Bhat, Muhammad Ahmed Mohsin, Asad Aali

大型语言模型（LLM）在单个基准测试中表现优异，但其在跨域组合推理策略、保存中间状态以及协调工具方面的能力仍待探索。为了应对这一挑战，研究人员提出了MAVEN（Modular Agentic Verification and Execution Network，模块化智能体验证与执行网络），这是一种轻量级的符号推理框架，旨在通过结构化分解、自适应工具编排和中间验证来提升智能体在工具调用环境中的泛化能力。

MAVEN的核心创新在于其模块化设计。该框架将复杂的任务分解为更小的子任务，并为每个子任务分配专门的工具和验证步骤。这种结构化方法允许系统在每一步进行中间检查，确保推理过程的正确性，并在必要时进行回溯或调整。此外，MAVEN的自适应工具编排机制能够根据任务需求动态选择合适的工具，从而避免了对固定工具序列的依赖。

为了评估MAVEN的性能，研究团队在多个现有基准测试（包括BFCL v3、TauBench、Tau2Bench和AceBench）上进行了实验，并引入了新的压力测试基准MAVEN-Bench。MAVEN-Bench专门设计用于评估多步数学和物理推理能力，其中包含明确的验证步骤和对抗性任务组合。实验结果令人瞩目：在直接运行MAVEN-Bench时，MAVEN将其基础模型GPT-OSS-120b的准确率从48%提升至71%，且无需任何额外训练。

更值得注意的是，MAVEN在使用开源模型（GPT-OSS-120b）的同时，其性能与前沿的专有基线模型相当，而成本仅为后者的约十分之一。这一结果表明，轻量级的、以验证为中心的推理框架能够显著增强组合推理能力，并推动对智能体进行更注重过程的评估。

MAVEN的提出为智能体工具调用领域的泛化问题提供了一种可行的解决方案。通过强调模块化分解和中间验证，该框架不仅提升了性能，还降低了计算成本，为未来更可靠和高效的智能体系统奠定了基础。