2026-06-14站内改写2 分で読了更新: 2026-06-14

容赦ないAIの自己進化

Harness ForgeはClaude Codeスキルであり、提案・スコアリング・パレート最適化ループにより固定AIモデル周辺のスキャフォールディングを最適化します。Meta-Harness手法をネイティブ実装し、コードを1,260行から75行に削減、テキスト分類で+7.7精度ポイントと4倍少ないコンテキストトークンを達成します。

ソースHacker News AI著者: proteus-design

記事インテリジェンス

エンジニア中級

要点

Harness ForgeはClaude Codeスキルで、提案・スコアリング・パレート最適化ループによりモデルハーネスを最適化します。
Meta-Harness手法に基づき、コード量を約1,260行から75行に削減。
テキスト分類で精度+7.7ポイント、コンテキストトークン約1/4を達成。
Claude Codeにネイティブ統合され、外部Pythonランタイムが不要。

重要な理由

このニュースが重要なのは、Harness ForgeはClaude Codeスキルで、提案・スコアリング・パレート最適化ループによりモデルハーネスを最適化しますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Harness Forgeは、Claude Codeのスキルであり、固定されたモデルを囲むコード（メモリ、検索、コンテキスト構築、要約、プロンプトテンプレート、ツール選択ロジック）を改善するためのエンドツーエンドのハーネス最適化ループを実行します。提案→スコア→パレート最適を維持→繰り返し、というプロセスで、モデル自体は変更されません。

この手法は、Leeらによる2026年の論文「Meta-Harness: End-to-End Optimization of Model Harnesses」に基づいています。元のリファレンス実装は約1,260行のPythonコードで構成されていましたが、Harness ForgeはClaude Codeのネイティブオーケストレーションを活用し、わずか約75行で同等の機能を実現します。

ワークフローは次のとおりです：初期ハーネスでフロンティアをシードし、k個の候補変種を提案、検証、スコアリングし、パレートフロンティアをマージします。最終的に、未使用のテスト分割でフロンティアを評価します。

論文の主な結果は、テキスト分類における精度+7.7ポイント、コンテキストトークン約4分の1削減です。これはハーネス側の純粋な改善です。

Harness Forgeの利点はそのネイティブ性にあります。別個のPythonランタイムが不要で、ユーザーは安価な決定論的スコアラーと評価コーパス、提案者の事前知識を提供するだけで済みます。

注意すべき落とし穴として「凍結再生欠陥」があります。スコアラーがキャッシュされた出力を再生すると、候補はコストのみを変更でき、品質の改善ができなくなります。対策として、スコアラーが候補の実際の変更を評価するようにします。

Harness Forgeは、ベースモデルが固定され、反復タスクがあり、安価な評価が可能な場合に最適です。強化学習とは補完的であり、固定モデルフェーズでの唯一の最適化手段となります。

インストールは簡単で、curlコマンド1行またはClaude Codeプラグインとして実行できます。リポジトリには完全な例とドキュメントが含まれています。