ハーネス更新はハーネス利益ではない:自己進化型LLMエージェントにおける進化能力の解明
LLMエージェントは、プロンプト、スキル、記憶、ツールなどの外部ハーネスを更新することで適応するが、モデルの基本タスク解決能力がハーネスの自己進化能力を予測できるかは不明である。研究では、ハーネス更新能力は基本能力に関係なく平坦である一方、ハーネス利益能力は非単調であり、中堅モデルが最も恩恵を受け、弱モデルと強モデルは恩恵が少ないことが示された。推奨事項として、進化器よりもタスク解決エージェントへの投資、およびハーネス呼び出しと長期的指示追従のトレーニングに焦点を当てることが挙げられる。
大規模言語モデル(LLM)エージェントは、プロンプト、スキル、記憶、ツールといった編集可能な外部ハーネスを中心に構築されるシステムとしてますます普及している。これらはモデルパラメータを変更せずにタスク実行を形成する。ハーネスの自己進化は、実行証拠からこれらのハーネスを更新することでエージェントを適応させる。しかし、タスク解決におけるモデルの基本能力がハーネスの自己進化能力を予測するかどうかは不明である。どのモデルが有用なハーネス更新を生成し、どのモデルが実際にそれから利益を得るのかという問いに対し、本論文は二つの能力を分析する。
第一はハーネス更新能力、すなわち実行証拠から有用で永続的なハーネス更新を生成する能力である。第二はハーネス利益能力、すなわちタスク解決中に更新されたハーネスから利益を得る能力である。分析の結果、二つの重要な発見があった。
まず、ハーネス更新能力は基本能力に関して平坦である。異なる能力階層のモデルが生成するハーネス更新は、驚くほど類似した利益をもたらす。たとえば、Qwen3.5-9Bの更新でさえ、Claude Opus 4.6と同等の利益を達成する。つまり、有用な更新を生み出す能力はモデルの規模や能力に依存しない。
次に、ハーネス利益能力は基本能力に関して非単調である。弱い階層のモデルは更新されたハーネスからほとんど利益を得ず、中程度の階層のモデルが最も利益を得、強い階層のモデルは中程度より利益が少ない。研究では、弱い階層での低利益を二つの失敗モードに起因するとしている。弱いモデルは関連するハーネスアーティファクトを活性化できないか、活性化しても忠実に従うことができない。
これらの発見は、進化器ではなくタスク解決エージェントに能力予算を投資し、エージェントトレーニングでハーネス呼び出しと長期的指示追従を重視することを示唆している。研究コードはGitHubで公開されている。