2026-06-24 20:00 UTC+9サイト内リライト3 分で読了更新: 2026-06-24 22:15 UTC+9

Harness-1：20Bパラメータの検索サブエージェント、GPT-5.4を超える検索性能

Harness-1は、状態管理をモデルから分離し、8つのツールインターフェースと2段階圧縮を用いることで、効率的な検索を実現する。

ソースAnalytics Vidhya著者: Riya Bansal

ほとんどの検索エージェントは、新しいクエリの生成、探索済みコンテンツの追跡、証拠収集、関連性判断など、多くのタスクを同時に処理しようとします。そのため、プロセスが複雑でコストがかかり、制御が難しくなります。Harness-1は、UIUC、UC Berkeley、Chromaの研究者によって開発された、よりシンプルなアプローチを採用しています。検索語の発見と検索進捗の追跡を分離することで、モデルサイズからは想像できない高いパフォーマンスを実現しました。

Harness-1の中核は、ステートフルな「ハーネス」（制御フレームワーク）です。このハーネスはモデルを状態機械として動作させ、4つの永続的構造を維持します：候補プール（圧縮・重複排除された文書）、キュレーションセット（最大30文書、重要度フラグ付き）、全文ストア（全取得データ）、証拠グラフ（自動抽出されたエンティティとその関係）。証拠グラフの部分は特に巧妙で、正規表現抽出器が各取得データから固有名詞、年、日付をスキャンします。複数のエンティティが頻繁に共起するブリッジ文書は非常に高優先度としてフラグ付けされ、孤立エンティティはフォローアップ検索の候補となります。各ターンで、ハーネスはこれらの情報を効率的かつコンパクトに提示します。

モデルは各タイムステップで8つのツールのいずれかを実行します。検索段階の出力には2段階圧縮が適用されます。第1段階ではSentence-BM25で文をランク付けし、各チャンクから上位4文を選択。第2段階ではチャンクIDとコンテンツフィンガープリントによる二重重複排除でさらに精査します。ポリシーは生の検索出力を一切見ることなく、クリーンなコンテキストを維持します。

訓練のコールドスタート問題に対して、Harness-1はウォームスタートシーディングを採用：初回検索成功後、上位8件の再ランク付け結果（公平性評価付き）から自動的にキュレーションセットを生成。ポリシーはゼロからの作成ではなく、洗練（質の高い文書の価値を高め、弱い文書の評価を下げる）に専念できるようになり、訓練の安定性が大幅に向上しました。

訓練は二段階で行われます。第一段階は教師ありファインチューニング：教師モデルGPT-5.4を完全なハーネス内で実行し、899の有効な軌跡を収集してツールの呼び出し方、アクションの構造化、キュレーションセットの更新を学習。第二段階は強化学習：CISPOアルゴリズムを使用し、報酬関数は最終報酬のみで構成。発見報酬（新たな関連文書の発見）と選択報酬（キュレーション再現率）に加え、ツール多様性ボーナスを含みます。多様性ボーナスは非常に重要で、これがないとエージェントは同じ検索を繰り返すループに陥り（キュレーション再現率0.53）、追加後はgrep_corpus、verify、read_documentなどのツールを使うようになり、再現率が0.60に向上します。

ローカル実行には、uvによる依存管理とvLLMによる推論サーバーが必要です。20Bモデルを動かすには十分なGPU VRAM（例：A100 80GB 1枚、またはA100 40GB 2枚をテンソル並列で使用）が必要です。リポジトリをクローンし、uv sync --extra vllmで依存関係をインストール後、vLLMサーバーを起動すればOpenAI互換API経由で検索リクエストを送信できます。

8つのベンチマーク（ウェブ検索、SEC財務書類、特許、多段階QAなど）において、Harness-1のキュレーション再現率は0.730に達し、GPT-5.4（0.709）、Sonnet-4.6（0.688）、Kimi-K2.5（0.647）を上回り、Opus-4.6（0.764）に迫りました。Harness-1は検索サブエージェントであり、推論や要約生成は行いません。RL訓練はSECクエリのみで行われましたが、ウェブや特許、多段階QAへの転移性能も良好で、ドメイン汎化の可能性を示しています。状態管理をモデルから分離するこのアプローチは、検索効率を大幅に向上させ、よりスマートな検索システムの構築に新たな道を開くものです。