2026-06-12站内改写2 分鐘閱讀更新: 2026-06-12

Evoflux: 針對緊湊型代理的可執行工具工作流的推理時演化

緊湊型語言模型在工具使用方面面臨挑戰，尤其是在孤立函式呼叫之外。Evoflux 在推理時使用進化搜尋來修復可執行工具工作流，在 MCP-Bench 任務上將執行可行性從約3%提高到17-24%，優於 SFT 和 DPO 基線。

來源arXiv AI作者: Kushal Raj Bhandari, Ling Yue, Ching-Yun Ko, Dhaval Patel, Shaowu Pan, Pin-Yu Chen, Jianxi Gao

緊湊型語言模型（Compact Language Model）因其降低部署成本、延遲和風險的顯著優勢，在工具代理（Tool Agent）領域受到了廣泛關注。然而，現代工具使用已經超越了簡單的函式呼叫，例如在 MCP（Model Context Protocol）風格的工具使用中，代理需要從即時目錄中發現工具、滿足模式約束、維護中間輸出的依賴關係，並將最終結果建立在執行證據之上。這些需求對小型語言模型構成了嚴峻挑戰。許多小型規劃器經常生成看似合理的工作流圖，但在工具解析、引數驗證、依賴追蹤或實際執行環節中失敗。研究人員指出，這種失敗模式難以透過小規模教師資料蒸餾來解決，因為幾百條教師軌跡雖然能教會工作流格式，卻很少涵蓋修復失敗計劃所需的行為，尤其是在工具目錄不斷變化的場景中。

針對這一問題，Kushal Raj Bhandari 等人提出了 Evoflux，一種推理時的進化搜尋方法，將緊湊型語言模型的工具使用視為可執行工作流的修復過程。Evoflux 透過結構化編輯、執行反饋、自適應強度、元引導重設計和多樣性剪枝來演化型別化工作流圖。具體而言，該方法從一個初始工作流圖開始，透過一系列編輯操作（如新增、刪除或重新排序節點）生成變異體，然後利用執行反饋評估其可行性，並據此指導搜尋方向。自適應強度機制允許在搜尋過程中動態調整變異幅度，而元引導重設計則利用歷史執行結果來改進編輯策略。多樣性剪枝確保搜尋空間保持足夠的多樣性，防止陷入區域性最優。

在包含即時 MCP 伺服器和 250 個工具的 MCP-Bench 任務上，Evoflux 將小型規劃器的執行可行性從大約 3% 顯著提升至 17-24%。作為對比，基於相同搜尋資料的監督微調（SFT）和結合直接偏好最佳化（DPO）的方法要麼效果持平，要麼效能下降甚至崩潰至零樣本水平以下。ReAct 雖然能夠達到更高的峰值效能，但其方差和 token 成本也更高。這些結果清晰地表明，在教師軌跡預算稀缺的情況下，基於執行的搜尋比傳統的蒸餾方法更加可靠。

Evoflux 的提出為緊湊型語言模型在複雜工具環境中的應用開闢了新路徑。它不僅提升了工具的可用性，還可能影響模型選型、推理成本、產品能力和評測基準。該研究的開原始碼已經發布，可以預見，這一方法將推動更多針對小型模型工具使用的實際應用研究。