MAVEN:提升智慧體工具呼叫中的泛化能力
MAVEN(模組化智慧體驗證與執行網路)是一種輕量級符號推理框架,旨在透過結構化分解、自適應工具編排和中間驗證來增強智慧體在工具呼叫環境中的泛化能力。在MAVEN-Bench壓力測試中,MAVEN將GPT-OSS-120b基礎模型的準確率從48%提升至71%,且無需額外訓練。該框架在使用開源模型的情況下,成本僅為專有模型的1/10,展現了輕量級驗證中心框架在組合推理方面的潛力。
大型語言模型(LLM)在單個基準測試中表現優異,但其在跨域組合推理策略、儲存中間狀態以及協調工具方面的能力仍待探索。為了應對這一挑戰,研究人員提出了MAVEN(Modular Agentic Verification and Execution Network,模組化智慧體驗證與執行網路),這是一種輕量級的符號推理框架,旨在透過結構化分解、自適應工具編排和中間驗證來提升智慧體在工具呼叫環境中的泛化能力。
MAVEN的核心創新在於其模組化設計。該框架將複雜的任務分解為更小的子任務,併為每個子任務分配專門的工具和驗證步驟。這種結構化方法允許系統在每一步進行中間檢查,確保推理過程的正確性,並在必要時進行回溯或調整。此外,MAVEN的自適應工具編排機制能夠根據任務需求動態選擇合適的工具,從而避免了對固定工具序列的依賴。
為了評估MAVEN的效能,研究團隊在多個現有基準測試(包括BFCL v3、TauBench、Tau2Bench和AceBench)上進行了實驗,並引入了新的壓力測試基準MAVEN-Bench。MAVEN-Bench專門設計用於評估多步數學和物理推理能力,其中包含明確的驗證步驟和對抗性任務組合。實驗結果令人矚目:在直接執行MAVEN-Bench時,MAVEN將其基礎模型GPT-OSS-120b的準確率從48%提升至71%,且無需任何額外訓練。
更值得注意的是,MAVEN在使用開源模型(GPT-OSS-120b)的同時,其效能與前沿的專有基線模型相當,而成本僅為後者的約十分之一。這一結果表明,輕量級的、以驗證為中心的推理框架能夠顯著增強組合推理能力,並推動對智慧體進行更注重過程的評估。
MAVEN的提出為智慧體工具呼叫領域的泛化問題提供了一種可行的解決方案。透過強調模組化分解和中間驗證,該框架不僅提升了效能,還降低了計算成本,為未來更可靠和高效的智慧體系統奠定了基礎。