2026-06-07 15:25 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

Harness-1：gpt-oss-20bをベースにしたステートフル検索ハーネス内で強化学習によりトレーニングされた200億パラメータの検索サブエージェント

Harness-1は、gpt-oss-20bをベースにした200億パラメータの検索サブエージェントで、ステートフル検索ハーネス内で強化学習によりトレーニングされました。ハーネスは候補プール、重要度タグ付きキュレーションセット、エビデンスグラフ、検証記録などのブックキーピングを担当し、ポリシーは検索、キュレーション、検証の決定を行います。8つのベンチマークで平均キュレーション再現率0.730を達成し、次点のオープンサブエージェントを11.4ポイント上回り、Opus-4.6にのみ劣ります。重みとハーネスコードは公開されています。

ソースMarkTechPost著者: Asif Razzaq

記事インテリジェンス

エンジニア中級

要点

Harness-1は200億パラメータの検索サブエージェントで、ステートフル検索ハーネス内で強化学習によりトレーニング。
ハーネスがブックキーピングを管理し、ポリシーが意味的な決定を担当。
8つのベンチマークで平均キュレーション再現率0.730を達成し、他のオープンサブエージェントを上回る。
重みとコードは公開済み。

重要な理由

このニュースが重要なのは、Harness-1は200億パラメータの検索サブエージェントで、ステートフル検索ハーネス内で強化学習によりトレーニングためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

ほとんどの検索エージェントは、成長するトランスクリプト上でポリシーをトレーニングします。モデルはどのように検索するかを決定し、何を見たか、どの証拠が重要か、どの主張を確認したかを記憶しなければなりません。イリノイ大学アーバナ・シャンペーン校、カリフォルニア大学バークレー校、Chromaの研究チームは、これは要求が多すぎると主張しています。強化学習は最終的に、検索決定と日常的なブックキーピングの両方を同時に最適化することになります。

彼らの答えはHarness-1です。これはgpt-oss-20bをベースにした200億パラメータの検索サブエージェントであり、ステートフル検索ハーネス内で強化学習によりトレーニングされました。ハーネスはブックキーピングを保持し、ポリシーは意味的な決定を維持します。重みとハーネスコードは公開されています。

Harness-1は、Natural Questions、TriviaQA、HotpotQAなどを含む8つのベンチマークで評価されました。平均キュレーション再現率0.730を達成し、次点のオープンサブエージェントを11.4ポイント上回り、専有のOpus-4.6にのみ劣ります。これは、ブックキーピングと意思決定を分離することで検索パフォーマンスが大幅に向上することを示しています。

研究者は、この設計により強化学習の複雑さが軽減され、ポリシーが高レベルの意思決定に集中できると強調しています。Harness-1の公開は、検索拡張生成分野に強力なオープンソースツールを提供し、さらなる研究と応用を促進することが期待されます。