从搜索到合成:训练大型语言模型为零样本工作流生成器
大型语言模型(LLM)在众多任务中表现出色,但其针对具体实例的解决方案往往缺乏结构一致性,难以可靠部署。MetaFlow将工作流生成视为元学习问题,通过两阶段训练:先对合成工作流数据进行监督微调,再基于可验证奖励进行强化学习,使模型学会组合解决策略。在问答、代码生成和数学推理基准测试中,MetaFlow在域内任务上达到与最先进基线相当的性能,并在域外任务和新型算子集上展现出卓越的零样本泛化能力。
大型语言模型(LLM)在广泛的任务中表现出卓越的性能,然而它们针对每个具体实例生成的解决方案往往缺乏结构上的连贯性,这限制了它们在实际部署中的可靠性。为了解决这一问题,MetaFlow提出了一种新颖的范式:将工作流生成建模为元学习问题。工作流是一种编码任务级重复算法模式的框架,它能够提供跨实例变化的鲁棒性、可解释的调试轨迹以及跨问题实例的复用能力。然而,手动设计这样的工作流需要大量的专业知识和精力,这限制了它们的广泛应用。虽然自动工作流生成可以解决这一瓶颈,但现有的方法要么产生仅针对特定实例的解决方案,无法学习任务级模式,要么无法泛化到训练配置之外的新场景。
MetaFlow的训练分两个阶段进行。第一阶段,模型在合成工作流数据上进行监督微调,学习基本的组合策略。第二阶段,采用基于可验证奖励的强化学习(RLVR),利用任务内多个问题实例的执行反馈来优化端到端的成功率。这种两阶段训练方法使得模型不仅能够为已训练任务生成有效的工作流,还能展现出对未训练任务和新型算子集的强大泛化能力。在问答任务中,MetaFlow能够自动构建多步骤的检索和推理流程;在代码生成任务中,它能够组合不同的编程操作来生成正确代码;在数学推理任务中,它能够编排符号计算和逻辑推理步骤。
在多个基准测试中,MetaFlow通过单次推理即达到了与最先进基线相当的性能。具体而言,在域内任务上,其性能与现有最佳方法持平;而在域外任务和从未见过的算子集上,它展现出了惊人的零样本泛化能力,这标志着大型语言模型从实例级搜索向任务级合成的关键转变。该论文由Gan Luo等人于2026年6月29日提交至arXiv,属于机器学习(cs.LG)、人工智能(cs.AI)和计算与语言(cs.CL)领域,全文35页,包含8张图表。论文的代码和数据预计将在后续发布。