2026-06-12站内改写2 分钟阅读更新: 2026-06-12

Evoflux: 针对紧凑型代理的可执行工具工作流的推理时演化

紧凑型语言模型在工具使用方面面临挑战，尤其是在孤立函数调用之外。Evoflux 在推理时使用进化搜索来修复可执行工具工作流，在 MCP-Bench 任务上将执行可行性从约3%提高到17-24%，优于 SFT 和 DPO 基线。

来源arXiv AI作者: Kushal Raj Bhandari, Ling Yue, Ching-Yun Ko, Dhaval Patel, Shaowu Pan, Pin-Yu Chen, Jianxi Gao

紧凑型语言模型（Compact Language Model）因其降低部署成本、延迟和风险的显著优势，在工具代理（Tool Agent）领域受到了广泛关注。然而，现代工具使用已经超越了简单的函数调用，例如在 MCP（Model Context Protocol）风格的工具使用中，代理需要从实时目录中发现工具、满足模式约束、维护中间输出的依赖关系，并将最终结果建立在执行证据之上。这些需求对小型语言模型构成了严峻挑战。许多小型规划器经常生成看似合理的工作流图，但在工具解析、参数验证、依赖追踪或实际执行环节中失败。研究人员指出，这种失败模式难以通过小规模教师数据蒸馏来解决，因为几百条教师轨迹虽然能教会工作流格式，却很少涵盖修复失败计划所需的行为，尤其是在工具目录不断变化的场景中。

针对这一问题，Kushal Raj Bhandari 等人提出了 Evoflux，一种推理时的进化搜索方法，将紧凑型语言模型的工具使用视为可执行工作流的修复过程。Evoflux 通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝来演化类型化工作流图。具体而言，该方法从一个初始工作流图开始，通过一系列编辑操作（如添加、删除或重新排序节点）生成变异体，然后利用执行反馈评估其可行性，并据此指导搜索方向。自适应强度机制允许在搜索过程中动态调整变异幅度，而元引导重设计则利用历史执行结果来改进编辑策略。多样性剪枝确保搜索空间保持足够的多样性，防止陷入局部最优。

在包含实时 MCP 服务器和 250 个工具的 MCP-Bench 任务上，Evoflux 将小型规划器的执行可行性从大约 3% 显著提升至 17-24%。作为对比，基于相同搜索数据的监督微调（SFT）和结合直接偏好优化（DPO）的方法要么效果持平，要么性能下降甚至崩溃至零样本水平以下。ReAct 虽然能够达到更高的峰值性能，但其方差和 token 成本也更高。这些结果清晰地表明，在教师轨迹预算稀缺的情况下，基于执行的搜索比传统的蒸馏方法更加可靠。

Evoflux 的提出为紧凑型语言模型在复杂工具环境中的应用开辟了新路径。它不仅提升了工具的可用性，还可能影响模型选型、推理成本、产品能力和评测基准。该研究的开源代码已经发布，可以预见，这一方法将推动更多针对小型模型工具使用的实际应用研究。