從搜尋到合成:訓練大型語言模型為零樣本工作流生成器
大型語言模型(LLM)在眾多工中表現出色,但其針對具體例項的解決方案往往缺乏結構一致性,難以可靠部署。MetaFlow將工作流生成視為元學習問題,透過兩階段訓練:先對合成工作流資料進行監督微調,再基於可驗證獎勵進行強化學習,使模型學會組合解決策略。在問答、程式碼生成和數學推理基準測試中,MetaFlow在域內任務上達到與最先進基線相當的效能,並在域外任務和新型運算元集上展現出卓越的零樣本泛化能力。
大型語言模型(LLM)在廣泛的任務中表現出卓越的效能,然而它們針對每個具體例項生成的解決方案往往缺乏結構上的連貫性,這限制了它們在實際部署中的可靠性。為了解決這一問題,MetaFlow提出了一種新穎的正規化:將工作流生成建模為元學習問題。工作流是一種編碼任務級重複演算法模式的框架,它能夠提供跨例項變化的魯棒性、可解釋的除錯軌跡以及跨問題例項的複用能力。然而,手動設計這樣的工作流需要大量的專業知識和精力,這限制了它們的廣泛應用。雖然自動工作流生成可以解決這一瓶頸,但現有的方法要麼產生僅針對特定例項的解決方案,無法學習任務級模式,要麼無法泛化到訓練配置之外的新場景。
MetaFlow的訓練分兩個階段進行。第一階段,模型在合成工作流資料上進行監督微調,學習基本的組合策略。第二階段,採用基於可驗證獎勵的強化學習(RLVR),利用任務內多個問題例項的執行反饋來最佳化端到端的成功率。這種兩階段訓練方法使得模型不僅能夠為已訓練任務生成有效的工作流,還能展現出對未訓練任務和新型運算元集的強大泛化能力。在問答任務中,MetaFlow能夠自動構建多步驟的檢索和推理流程;在程式碼生成任務中,它能夠組合不同的程式設計操作來生成正確程式碼;在數學推理任務中,它能夠編排符號計算和邏輯推理步驟。
在多個基準測試中,MetaFlow透過單次推理即達到了與最先進基線相當的效能。具體而言,在域內任務上,其效能與現有最佳方法持平;而在域外任務和從未見過的運算元集上,它展現出了驚人的零樣本泛化能力,這標誌著大型語言模型從例項級搜尋向任務級合成的關鍵轉變。該論文由Gan Luo等人於2026年6月29日提交至arXiv,屬於機器學習(cs.LG)、人工智慧(cs.AI)和計算與語言(cs.CL)領域,全文35頁,包含8張圖表。論文的程式碼和資料預計將在後續釋出。