AI News HubLIVE
站内改写2 分钟阅读

Evoflux: 针对紧凑型代理的可执行工具工作流的推理时演化

紧凑型语言模型在工具使用方面面临挑战,尤其是在孤立函数调用之外。Evoflux 在推理时使用进化搜索来修复可执行工具工作流,在 MCP-Bench 任务上将执行可行性从约3%提高到17-24%,优于 SFT 和 DPO 基线。

来源arXiv AI作者: Kushal Raj Bhandari, Ling Yue, Ching-Yun Ko, Dhaval Patel, Shaowu Pan, Pin-Yu Chen, Jianxi Gao

紧凑型语言模型(Compact Language Model)因其降低部署成本、延迟和风险的显著优势,在工具代理(Tool Agent)领域受到了广泛关注。然而,现代工具使用已经超越了简单的函数调用,例如在 MCP(Model Context Protocol)风格的工具使用中,代理需要从实时目录中发现工具、满足模式约束、维护中间输出的依赖关系,并将最终结果建立在执行证据之上。这些需求对小型语言模型构成了严峻挑战。许多小型规划器经常生成看似合理的工作流图,但在工具解析、参数验证、依赖追踪或实际执行环节中失败。研究人员指出,这种失败模式难以通过小规模教师数据蒸馏来解决,因为几百条教师轨迹虽然能教会工作流格式,却很少涵盖修复失败计划所需的行为,尤其是在工具目录不断变化的场景中。

针对这一问题,Kushal Raj Bhandari 等人提出了 Evoflux,一种推理时的进化搜索方法,将紧凑型语言模型的工具使用视为可执行工作流的修复过程。Evoflux 通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝来演化类型化工作流图。具体而言,该方法从一个初始工作流图开始,通过一系列编辑操作(如添加、删除或重新排序节点)生成变异体,然后利用执行反馈评估其可行性,并据此指导搜索方向。自适应强度机制允许在搜索过程中动态调整变异幅度,而元引导重设计则利用历史执行结果来改进编辑策略。多样性剪枝确保搜索空间保持足够的多样性,防止陷入局部最优。

在包含实时 MCP 服务器和 250 个工具的 MCP-Bench 任务上,Evoflux 将小型规划器的执行可行性从大约 3% 显著提升至 17-24%。作为对比,基于相同搜索数据的监督微调(SFT)和结合直接偏好优化(DPO)的方法要么效果持平,要么性能下降甚至崩溃至零样本水平以下。ReAct 虽然能够达到更高的峰值性能,但其方差和 token 成本也更高。这些结果清晰地表明,在教师轨迹预算稀缺的情况下,基于执行的搜索比传统的蒸馏方法更加可靠。

Evoflux 的提出为紧凑型语言模型在复杂工具环境中的应用开辟了新路径。它不仅提升了工具的可用性,还可能影响模型选型、推理成本、产品能力和评测基准。该研究的开源代码已经发布,可以预见,这一方法将推动更多针对小型模型工具使用的实际应用研究。