MicrosoftのSkillOpt:訓練済みMarkdownファイルのみでGPT-5.5を大幅に向上
Microsoftと中国の3つの大学が、従来のモデル訓練の原理を応用してAIエージェントの指示文書(スキル)を最適化する手法「SkillOpt」を開発した。単純なMarkdownファイルがあれば、手続き型タスクでGPT-5.5を約23ポイント向上させることができ、同じファイルはCodexやClaude Codeなどのモデルやエージェント環境間で転送可能である。
Microsoftと中国の3つの大学の研究者たちは、AIエージェントの指示文書(スキル)を訓練することで、モデルの手続き型タスクのパフォーマンスを大幅に向上させる手法「SkillOpt」を開発した。驚くべきことに、この改善は単純なMarkdownファイル1つで達成され、GPT-5.5を20ポイント以上向上させるとされている。
この種の指示文書は商業製品ですでに一般的である。例えば、Anthropicは昨年、Claudeにモジュール式スキルシステムを追加し、タスクに応じてトピック固有の指示、スクリプト、リソースを自動的に読み込むようにした。スキルは通常、手順、ツール使用ルール、出力形式、既知の失敗パターンをバンドルしており、標準的なアプローチとなっている。しかし、Microsoftチームの論文によれば、これまでのスキルは手動で書かれるか、言語モデルによって一回で生成されるか、緩やかに自己修正されるかのいずれかであり、真の最適化とは言えず、スキルが実際に改善される保証もなかった。
SkillOptの核心は、スキル文書を凍結された目標モデルの外部訓練可能状態として扱うことにある。別の独立した言語モデルが最適化器として機能し、エージェントの実行ログを分析して繰り返し発生するエラーと成功のパターンを特定し、限定的な編集(段落の追加、削除、置換)を提案する。各変更は、保持された検証セットでパフォーマンスが向上した場合にのみ受け入れられる。
研究チームは、いくつかの深層学習の概念をテキストレベルにマッピングした。一種の学習率が各ステップで許可される編集数を制限し、スケジューラがエポックを追うごとにステップサイズを縮小する。拒否された編集はバッファに入れられ、後の反省のためのネガティブ例として機能する。各エポック終了時の緩やかな更新は、従来の訓練における勾配平滑化と同様に、訓練ラウンド全体で安定した編集方向を維持する。
この手法が実用的なのは、訓練とデプロイメントが明確に分離されている点である。最適化器モデルは訓練中のみ実行され、完了すれば不要になる。推論時には、目標モデルは300~2000トークンのプレーンなMarkdownファイルをコンテキストとして受け取るだけでよい。
研究者たちは、検索、表計算、ドキュメント分析、数学、具現化行動をカバーする6つのベンチマークで手法をテストした。ターゲットモデルとしてGPT-5.5やより小型のQwen3.5-4Bを含む7つのシステムを使用し、タスクは直接チャットだけでなく、CodexやClaude Codeなどのエージェント環境でも実行された。
すべての組み合わせにおいて、SkillOptは最良の比較結果と同等かそれを上回った。これには手書きのスキル、一回生成のLLMスキル、Trace2Skill、TextGrad、GEPA、EvoSkillなどの専門的手法が含まれる。GPT-5.5では、6つのベンチマーク全体の平均が約23ポイント向上した。
最大の改善は、厳格なフォーマット要件とツール使用を伴うタスク(表計算編集など)で見られた。小型モデルも恩恵を受けており、これは適切に訓練されたスキルが、これらのモデルの重みに欠けている手続き的知識を提供できる証拠だと研究者らは述べている。
重要な発見の1つはスキルの転送可能性である。大規模モデルで訓練されたスキルは、同じファミリーの小型モデルも向上させた。Codexループで訓練された表計算スキルは、Claude Codeでもそのまま機能し、Claude Codeで直接訓練されたスキルと同等のパフォーマンスを達成した。オリンピック問題で最適化された数学スキルは、再訓練なしで関連ベンチマークに改善をもたらした。
アブレーション研究は、この手法が安定して機能する理由を説明している。編集予算が制限されていないと、スキルは改訂ごとに大きく逸脱する。拒否された編集のバッファがないと、最適化器は同じ失敗を繰り返す。エポック終了時の緩やかな更新を削除すると、SpreadsheetBenchで20ポイント以上の低下が見られ、実験全体で最大の低下となった。研究者らは、限られたステップサイズ、検証ゲーティング、ネガティブフィードバック、長期的統合の組み合わせのみが、スキル訓練を制御された最適化プロセスにすると述べている。
最終的なスキルはコンパクトに保たれる。完成した文書は2000トークンを超えることはほとんどなく、改善は4つの訓練エポック全体で1~4回の受け入れられた編集から生じる。OfficeQAでは、最大の改善は単一の変更からもたらされた。学習されたルールは、経験豊富な実践者がベンチマークに取り組んだ後に書き留めたメモのように読める。例えば、表計算では、ワークシート構造を最初に確認し、Excelの数式を使わずに計算値をターゲット範囲全体に直接書き込むことを学習する。ALFWorldでは、訪問した場所のログを保持し、ターゲットオブジェクトを拾う前にゴールに向かわないようにする。ドキュメント質問では、回答を受け入れる前に質問を適切なテーブル行に固定する。これらのルールは特定のタスクを参照しておらず、手順を記述している。
研究者らは、この手法が信頼性の高い自動スコアリングに依存していることを認めている。オープンエンドなタスクでは、検証ステップに人間またはモデルによる判断が必要になる。また、SkillOptは意図的に単一の文書を最適化しており、スキルライブラリではないため、高度に多様なドメインではボトルネックになる可能性がある。
現在のほとんどの自己改善アプローチが最終的にモデルの重みを調整するのに対し、SkillOptは驚くほど簡素な経路を取る。Princetonの研究者によるOpenClaw-RLは、各インタラクションからのフォローアップ信号(ユーザーの応答やテスト結果など)をライブ訓練ソースとして使用する。MetaClawは失敗したタスクからコンパクトな行動ルールを抽出し、プロンプトに注入し、アイドルフェーズでのみ強化学習を介して重みを更新する。SkillOptとの類似点:どちらの場合も、弱いモデルほど恩恵を受ける。なぜなら、ルールやスキルが直接提供できる手続き的知識が不足しているからである。他のグループはさらに進んでいる。AutoTTSはコーディングエージェントに推論制御アルゴリズムを自ら探索させ、人間の役割をルール設計から環境設計に移行させる。MetaのHyperagentsは自己改善のメカニズムそのものを最適化する。対照的に、SkillOptはモデルを凍結したまま、読み取り可能なテキストファイルのみを変更する。