AI News HubLIVE
サイト内リライト4 分で読了

SkillOpt:エージェントスキルを訓練可能なパラメータとして扱う

AIエージェントは、指示やスキルを手動で変更しても改善が保証されないために失敗することが多い。SkillOptはスキル編集を訓練プロセスに変え、モデル重みを変更せずにエージェントの動作をより信頼性の高いものにする。52の評価セルすべてで最良または同等の結果を達成し、最適化されたスキルはコンパクトで監査可能、転用可能なままである。

ソースMicrosoft Research Blog著者: Yifan Yang, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Dongdong Chen, Chong Luo

大規模言語モデル(LLM)は、証拠収集、ツール呼び出し、マルチステップタスク実行を行うエージェントとしてますます活用されている。これらのエージェントにとって、難しい問題はツールを呼び出せるかどうかではなく、タスクを確実かつ一貫して完了できるかどうかである。現在、エージェントスキルは主に3つのソースから得られる。専門家が手作業で作成する、フロンティアモデルがワンショットで生成する、またはエージェントが実行後に緩やかに修正する。これらのアプローチはどれも深層学習オプティマイザのように機能しない。ステップサイズの制御、ホールドアウト検証、失敗した修正の記憶が欠けている。その結果、スキルは書き換えのたびに長くなりドリフトし、一見合理的な修正が実際のタスク性能を静かに低下させる可能性がある。この制御不能なスキル進化は、エージェントプロトタイプから信頼性の高い本番環境への展開への主要な障害となっている。

我々の最近の論文「SkillOpt: Executive Strategy for Self-Evolving Agent Skills」では、質問を「より良いプロンプトをどう書くか」から「スキルをどう訓練するか」に問い直す。SkillOptはスキルファイルを凍結されたターゲットモデル外部の訓練可能なパラメータとして扱い、訓練スタイルの最適化ループ、52の評価セル全体での一貫した利得、および可読性、監査可能性、転用可能性を維持するコンパクトなスキルファイルをもたらす。

SkillOptの仕組みは、テキスト空間での前向き-後向き-更新サイクルとしてスキル編集を整理する。前向きパスでは、凍結されたターゲットモデルが現在のスキルで訓練タスクのバッチを実行する。後向きパスでは、別のオプティマイザモデルが結果の軌跡を読み取り、成功した軌跡から保存すべきパターンと失敗から修正すべきパターンを抽出する。更新ステップでは、オプティマイザが小さな追加、削除、置換編集を提案する。候補編集はマージ、重複除去、ランク付けされ、テキスト学習率(ステップごとの編集予算)でクリップされる。各候補スキルは厳格な検証ゲートを通過しなければならない。保持された検証セットで現在のスキルよりも厳密に高いスコアを獲得した場合のみ採用される。拒否された編集は破棄されず、拒否編集バッファに入り、同じエポック内での後のオプティマイザ呼び出しの負のフィードバックとして機能する。より遅いペースで、エポックごとのスロー/メタ更新が、単一バッチでは明らかにできないより長期の教訓を統合する。有界編集、検証ゲート、最良バージョン選択を組み合わせることで、スキル最適化を制御可能で監査可能にし、スキルがドリフトせず収束する。

6ベンチマーク(SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMathematicianBench、ALFWorld)、7ターゲットモデル(フロンティア規模のGPT-5.5から小型オープンウェイトQwen3.5-4Bまで)、3実行モード(直接チャット、Codex、Claude Code)で評価した。人間作成スキル、ワンショットLLMスキル、Trace2Skill、TextGrad、GEPA、EvoSkillと比較して、SkillOptは52セルすべてで最良または同点の結果を達成した。これらの性能改善は、モデル重みを更新しない手法としては異常に大きい。GPT-5.5を直接チャットで使用した場合、SkillOptは6ベンチマーク平均を58.8から82.3に引き上げ、絶対改善+23.5ポイント、セルごとに最良の競合手法を選択するオラクルよりも+5.4ポイント高い。最大の利得は手続き的ベンチマークで現れた。SpreadsheetBenchが41.8から80.7、OfficeQAが33.1から72.1、LiveMathematicianBenchが37.6から66.9に上昇。同じインターフェースはエージェントループにも適用でき、GPT-5.5をCodex内で+24.8、Claude Code内で+19.1ポイント向上させた。

SkillOptはまた、小型またはオープンウェイトモデルとフロンティアモデルとのギャップを縮める。重みを変更せず、推論時に追加のモデル呼び出しも不要。最適化後、GPT-5.4-miniの6ベンチマーク平均(64.3)は、より大きなGPT-5.4のスキルなしベースライン(59.7)を超え、GPT-5.4-nano(57.4)はGPT-5.2のベースライン(51.3)を超える。40億パラメータのオープンウェイトモデルQwen3.5-4BもGPT-5.2のベースラインを超える。かつてより大きなモデルが必要だった利得が、最適化されたスキルファイル一つで近似できる。

最適化されたスキルファイルは、単一モデル、ベンチマーク、実行環境に過適合した指示ではなく、再利用可能なタスク解決手順を捉える。そのため、同じスキルがモデル規模、エージェントハーネス、関連タスク間で転送されても性能を向上させ続ける。最も明確な例はクロスハーネス転送である。Codex内で訓練されたスプレッドシートスキルをそのままClaude Codeに投入し、追加最適化なしで、スキルなしベースラインを22.1から81.8に引き上げた(+59.7)。これはClaude Code内で直接訓練した80.4をわずかに上回る。2つのハーネスは異なるツール表面を公開するため、SkillOptはハーネス固有のレシピではなく、一般的なワークフロー論理を学習していることを示唆する。

最終成果物best_skill.mdは、不透明なパラメータ塊でも、成長し続けるログでもない。6つのケーススタディで、スキル最終長さの中央値は約920トークン。検証ゲートがほとんどの提案を拒否するため、最終ファイルに受け入れられる編集は1~4回だけである。OfficeQAの+39.0ポイントの利得は単一の受け入れ編集から来ている。学習されたルールは熟練した実践者のアドバイスのように読める。コンポーネントアブレーションは制御が機能していることを確認する。拒否編集バッファを削除すると3つのアブレーションベンチマークすべてでスコアが低下し、メタスキルとスロー更新の両方を削除するとSpreadsheetBenchが77.5から55.0に低下する。SkillOptはエージェント時代のためのより軽量なドメイン適応経路を示す。チームは重みを微調整したり、タスクロジックをハードコードしたり、プロンプトを手調整したりする代わりに、自動評価または信頼性のある検証器が存在する場所ならどこでも、小さくバージョン管理可能で監査可能な自然言語スキル層を訓練できる。

学習率、スケジュール、検証分割、拒否サンプル、スロー更新をエージェントスキルに導入することで、SkillOptは訓練がモデル重みに限定される必要がないことを示唆する。モデル外部の手続き的知識も最適化できる。そのプロセスが制御、検証、記録されると、自然言語スキルはフロンティアモデルの能力と現実世界のワークロードとの間の安定した、転送可能で、可逆的なアダプターになる。