ホールドアウト選択による再帰的自己進化エージェント
研究者らはRSEAを提案。これは、重み更新なしでコンパクトな自然言語状態を進化させることでLLMエージェントを改善する再帰的自己進化エージェントである。厳格なホールドアウト選択ゲートを使用することで、RSEAは一部のベンチマークでベースラインを上回り、性能崩壊を防ぐ。研究では、普遍的に最適なアーティファクトは存在せず、保護されないコンテキスト進化の危険性を警告している。
大規模言語モデル(LLM)エージェントは、重み更新なしで、反省、ワークフロー、手順書、チートシート、最適化プロンプトなどの自然言語アーティファクトを進化させることで改善されつつある。しかし、これらの手法は通常、単一のベンチマークでのみ有効と報告される。公平な比較のために、研究者らは再帰的自己進化エージェント(RSEA)を導入した。これは、命令的な戦略、再利用可能なスキル、手続き的な手順書という3層のコンパクトな自然言語状態を保持する。世代を超えて、RSEAは自身の軌跡から3層すべてを書き換え、候補が非交差のホールドアウト分割で後退しない場合のみ、厳格な「より良いものを保持」ゲートを使用してコミットする。
4つの多様なベンチマーク(ALFWorld、GAIA、τ-bench、WebShop)において、6つの忠実なベースライン(ReAct、Reflexion、GEPA、AWM、ACE、Dynamic Cheatsheet)と比較し、すべて同一の共有ローカルバックボーンで評価した結果、3つの主要な結果が得られた。第一に、普遍的に勝利するアーティファクトは存在しない。RSEAはALFWorldで最強の単一パス手法であり、69.3%を達成(ReActは64.6%、McNemar p=0.015)、リトライにより79.4%に達し、全体で最良の結果である。しかし、具体的なワークフロー帰納法(AWM)は、強力なバックボーンのツール使用タスクで最良である。第二に、保護されないコンテキスト進化は高分散で安全ではない。Dynamic Cheatsheetはホールドアウトゲートなしでオンラインでコンテキストをキュレーションし、ALFWorldでは70.7%とほぼ最良であるが、WebShopでは崩壊し、スコア0.14(ReActは0.43)である。第三に、RSEAの厳格なホールドアウト選択により、再帰的自己進化が単調安全になる。すなわち、どのベンチマークでもベースエージェントを有意に下回ることはなく、進化したコンテキストが有害な場合はバニラReActにフォールバックする。
さらに、GAIAやτ-benchでは、RSEAはReActと同等の性能を維持し、GEPAやACEなどの手法ではタスクによって性能が変動した。RSEAのホールドアウトゲートは各進化ステップの安全性を保証し、進化が失敗しても元の戦略に戻る。この仕組みは機械学習における検証セットによる早期停止と類似しており、オンライン学習に重要である。研究者は進化の世代を重ねるごとの性能変化も分析し、RSEAが数世代で安定した性能に収束することを確認した。本研究は、LLMエージェントの自動改良に安全な道筋を示している。
結論として、RSEAは性能崩壊のリスクを避けながら信頼性の高い性能向上を実現する。ホールドアウト検証の重要性を強調し、将来の研究の基盤を提供する。開発者はタスクに応じて進化戦略を選択できるが、RSEAの単調安全性は汎用的で安全なデフォルト選択肢となる。