Evoflux: コンパクトエージェント向け実行可能ツールワークフローの推論時進化
コンパクトな言語モデルは、単独の関数呼び出しを超えたツール使用において課題に直面する。Evofluxは推論時に進化的探索を用いて実行可能なツールワークフローを修復し、MCP-Benchタスクで実行可能性を約3%から17-24%に向上させ、SFTやDPOベースラインを上回る。
コンパクトな言語モデル(Compact Language Model)は、ツールエージェントのコスト、レイテンシ、デプロイリスクを低減するという利点から注目を集めている。しかし、MCP(Model Context Protocol)スタイルのツール使用は単なる関数呼び出しを超える能力を要求する。エージェントはライブカタログからツールを発見し、スキーマを満たし、中間出力間の依存関係を維持し、最終応答を実行結果に基づいて生成しなければならない。小規模プランナーは多くの場合、もっともらしいワークフローグラフを生成するが、ツール解決、パラメータ検証、依存追跡、または実行段階で失敗する。研究者らは、この失敗パターンが小規模コーパス蒸留では適切に扱われないと主張する。数百の教師トレースはワークフロー形式を教えることができるが、変化するツールカタログに対して失敗した計画を修復するために必要な回復行動をカバーすることはほとんどない。
この問題に対処するため、Kushal Raj BhandariらはEvofluxを提案する。Evofluxは、推論時に進化的探索を用いて、コンパクトなツール使用を実行可能なツールワークフローの修復として扱う手法である。型付きワークフローグラフを、構造化編集、実行フィードバック、適応強度、メタガイド再設計、多様性プルーニングを通じて進化させる。具体的には、初期ワークフローグラフから開始し、ノードの追加、削除、並べ替えなどの編集操作でバリアントを生成し、実行フィードバックで実現可能性を評価して探索方向を導く。適応強度メカニズムは探索中に変異の大きさを動的に調整し、メタガイド再設計は過去の実行結果を利用して編集戦略を改善する。多様性プルーニングにより探索空間の多様性を維持し、局所最適への収束を防ぐ。
ライブMCPサーバと250のツールを含むMCP-Benchタスクにおいて、Evofluxは小規模プランナーの実行可能性を約3%から17-24%に向上させた。対照的に、同じ探索データを用いた教師ありファインチューニング(SFT)やSFT+DPO(直接選好最適化)は、効果がないか、性能が低下したり、ゼロショット性能を下回ったりした。ReActはより高いピークに達するが、分散とトークンコストが大きい。これらの結果は、教師トレースの予算が乏しい状況では、実行に基づく探索がはるかに信頼性が高いことを示している。
Evofluxは、複雑なツール環境におけるコンパクト言語モデルの応用に新たな道を開くものである。コードは公開されており、モデル選定、推論コスト、プロダクト能力、評価ベンチマークに影響を与える可能性がある。この研究は、小型モデルのツール使用に関する実用的な応用研究を促進することが期待される。