AI News HubLIVE
サイト内リライト2 分で読了

検索から合成へ:大規模言語モデルをゼロショットワークフロー生成器として訓練する

大規模言語モデル(LLM)は多くのタスクで優れた性能を発揮しますが、インスタンス固有の解決策には構造的一貫性が欠け、信頼性の高いデプロイが困難です。MetaFlowはワークフロー生成をメタ学習問題として捉え、合成ワークフローデータでの教師ありファインチューニングと、実行フィードバックを用いた検証可能報酬による強化学習の二段階訓練を実施します。QA、コード生成、数学的推論のベンチマークにおいて、MetaFlowは単一推論でドメイン内タスクで最先端ベースラインと同等の性能を達成し、ドメイン外タスクや新しい演算子セットへの顕著なゼロショット汎化能力を示します。

ソースarXiv Machine Learning著者: Gan Luo, Zihan Qin, Bin Dong, Wotao Yin

大規模言語モデル(LLM)は幅広いタスクで優れた性能を示していますが、インスタンス固有の解決策は構造的一貫性に欠けることが多く、信頼性の高い実運用には課題があります。MetaFlowはこの問題に取り組むため、ワークフロー生成をメタ学習問題として定式化します。ワークフローはタスクレベルの反復的なアルゴリズムパターンをエンコードする枠組みであり、インスタンス間の変動に対するロバスト性、デバッグのための解釈可能なトレース、問題インスタンス間での再利用性を提供します。しかし、手動でのワークフロー設計には高度な専門知識と労力が必要であり、広範な応用が制限されています。自動ワークフロー生成はこのボトルネックを解決できる可能性がありますが、既存手法はタスクレベルのパターンを学習せずにインスタンス固有の解を生成するか、訓練構成を超えて汎化できません。

MetaFlowの訓練は二段階で行われます。第一段階では、合成ワークフローデータを用いた教師ありファインチューニングにより、基礎的な組み合わせ戦略を学習します。第二段階では、検証可能な報酬を用いた強化学習(RLVR)を適用し、タスク内の複数の問題インスタンスにわたる実行フィードバックを利用してエンドツーエンドの成功率を向上させます。この結果、訓練されたタスクに対して効果的なワークフローを生成できるだけでなく、未訓練のタスクや新しい演算子セットに対しても強力な汎化能力を示します。具体的には、質問応答タスクでは複数ステップの検索と推論の流れを自動構築し、コード生成タスクでは異なるプログラミング操作を組み合わせて正しいコードを生成し、数学的推論タスクでは記号計算と論理推論のステップを調整します。

複数のベンチマークにおいて、MetaFlowは単一推論でドメイン内タスクにおいて最先端ベースラインと同等の性能を達成しました。さらに、ドメイン外タスクや新しい演算子セットに対して顕著なゼロショット汎化能力を示し、これはLLMがインスタンスレベルの検索からタスクレベルの合成へと移行する重要な一歩です。本論文はGan Luoらによって2026年6月29日に提出され、機械学習(cs.LG)、人工知能(cs.AI)、計算と言語(cs.CL)の分野に属し、全35ページ、8図から構成されています。コードとデータは後日公開される予定です。