Evoflux: 針對緊湊型代理的可執行工具工作流的推理時演化
緊湊型語言模型在工具使用方面面臨挑戰,尤其是在孤立函式呼叫之外。Evoflux 在推理時使用進化搜尋來修復可執行工具工作流,在 MCP-Bench 任務上將執行可行性從約3%提高到17-24%,優於 SFT 和 DPO 基線。
緊湊型語言模型(Compact Language Model)因其降低部署成本、延遲和風險的顯著優勢,在工具代理(Tool Agent)領域受到了廣泛關注。然而,現代工具使用已經超越了簡單的函式呼叫,例如在 MCP(Model Context Protocol)風格的工具使用中,代理需要從即時目錄中發現工具、滿足模式約束、維護中間輸出的依賴關係,並將最終結果建立在執行證據之上。這些需求對小型語言模型構成了嚴峻挑戰。許多小型規劃器經常生成看似合理的工作流圖,但在工具解析、引數驗證、依賴追蹤或實際執行環節中失敗。研究人員指出,這種失敗模式難以透過小規模教師資料蒸餾來解決,因為幾百條教師軌跡雖然能教會工作流格式,卻很少涵蓋修復失敗計劃所需的行為,尤其是在工具目錄不斷變化的場景中。
針對這一問題,Kushal Raj Bhandari 等人提出了 Evoflux,一種推理時的進化搜尋方法,將緊湊型語言模型的工具使用視為可執行工作流的修復過程。Evoflux 透過結構化編輯、執行反饋、自適應強度、元引導重設計和多樣性剪枝來演化型別化工作流圖。具體而言,該方法從一個初始工作流圖開始,透過一系列編輯操作(如新增、刪除或重新排序節點)生成變異體,然後利用執行反饋評估其可行性,並據此指導搜尋方向。自適應強度機制允許在搜尋過程中動態調整變異幅度,而元引導重設計則利用歷史執行結果來改進編輯策略。多樣性剪枝確保搜尋空間保持足夠的多樣性,防止陷入區域性最優。
在包含即時 MCP 伺服器和 250 個工具的 MCP-Bench 任務上,Evoflux 將小型規劃器的執行可行性從大約 3% 顯著提升至 17-24%。作為對比,基於相同搜尋資料的監督微調(SFT)和結合直接偏好最佳化(DPO)的方法要麼效果持平,要麼效能下降甚至崩潰至零樣本水平以下。ReAct 雖然能夠達到更高的峰值效能,但其方差和 token 成本也更高。這些結果清晰地表明,在教師軌跡預算稀缺的情況下,基於執行的搜尋比傳統的蒸餾方法更加可靠。
Evoflux 的提出為緊湊型語言模型在複雜工具環境中的應用開闢了新路徑。它不僅提升了工具的可用性,還可能影響模型選型、推理成本、產品能力和評測基準。該研究的開原始碼已經發布,可以預見,這一方法將推動更多針對小型模型工具使用的實際應用研究。