容赦ないAIの自己進化
Harness ForgeはClaude Codeスキルであり、提案・スコアリング・パレート最適化ループにより固定AIモデル周辺のスキャフォールディングを最適化します。Meta-Harness手法をネイティブ実装し、コードを1,260行から75行に削減、テキスト分類で+7.7精度ポイントと4倍少ないコンテキストトークンを達成します。
Harness Forgeは、Claude Codeのスキルであり、固定されたモデルを囲むコード(メモリ、検索、コンテキスト構築、要約、プロンプトテンプレート、ツール選択ロジック)を改善するためのエンドツーエンドのハーネス最適化ループを実行します。提案→スコア→パレート最適を維持→繰り返し、というプロセスで、モデル自体は変更されません。
この手法は、Leeらによる2026年の論文「Meta-Harness: End-to-End Optimization of Model Harnesses」に基づいています。元のリファレンス実装は約1,260行のPythonコードで構成されていましたが、Harness ForgeはClaude Codeのネイティブオーケストレーションを活用し、わずか約75行で同等の機能を実現します。
ワークフローは次のとおりです:初期ハーネスでフロンティアをシードし、k個の候補変種を提案、検証、スコアリングし、パレートフロンティアをマージします。最終的に、未使用のテスト分割でフロンティアを評価します。
論文の主な結果は、テキスト分類における精度+7.7ポイント、コンテキストトークン約4分の1削減です。これはハーネス側の純粋な改善です。
Harness Forgeの利点はそのネイティブ性にあります。別個のPythonランタイムが不要で、ユーザーは安価な決定論的スコアラーと評価コーパス、提案者の事前知識を提供するだけで済みます。
注意すべき落とし穴として「凍結再生欠陥」があります。スコアラーがキャッシュされた出力を再生すると、候補はコストのみを変更でき、品質の改善ができなくなります。対策として、スコアラーが候補の実際の変更を評価するようにします。
Harness Forgeは、ベースモデルが固定され、反復タスクがあり、安価な評価が可能な場合に最適です。強化学習とは補完的であり、固定モデルフェーズでの唯一の最適化手段となります。
インストールは簡単で、curlコマンド1行またはClaude Codeプラグインとして実行できます。リポジトリには完全な例とドキュメントが含まれています。