Harness-1:gpt-oss-20bをベースにしたステートフル検索ハーネス内で強化学習によりトレーニングされた200億パラメータの検索サブエージェント
Harness-1は、gpt-oss-20bをベースにした200億パラメータの検索サブエージェントで、ステートフル検索ハーネス内で強化学習によりトレーニングされました。ハーネスは候補プール、重要度タグ付きキュレーションセット、エビデンスグラフ、検証記録などのブックキーピングを担当し、ポリシーは検索、キュレーション、検証の決定を行います。8つのベンチマークで平均キュレーション再現率0.730を達成し、次点のオープンサブエージェントを11.4ポイント上回り、Opus-4.6にのみ劣ります。重みとハーネスコードは公開されています。
ほとんどの検索エージェントは、成長するトランスクリプト上でポリシーをトレーニングします。モデルはどのように検索するかを決定し、何を見たか、どの証拠が重要か、どの主張を確認したかを記憶しなければなりません。イリノイ大学アーバナ・シャンペーン校、カリフォルニア大学バークレー校、Chromaの研究チームは、これは要求が多すぎると主張しています。強化学習は最終的に、検索決定と日常的なブックキーピングの両方を同時に最適化することになります。
彼らの答えはHarness-1です。これはgpt-oss-20bをベースにした200億パラメータの検索サブエージェントであり、ステートフル検索ハーネス内で強化学習によりトレーニングされました。ハーネスはブックキーピングを保持し、ポリシーは意味的な決定を維持します。重みとハーネスコードは公開されています。
Harness-1は、Natural Questions、TriviaQA、HotpotQAなどを含む8つのベンチマークで評価されました。平均キュレーション再現率0.730を達成し、次点のオープンサブエージェントを11.4ポイント上回り、専有のOpus-4.6にのみ劣ります。これは、ブックキーピングと意思決定を分離することで検索パフォーマンスが大幅に向上することを示しています。
研究者は、この設計により強化学習の複雑さが軽減され、ポリシーが高レベルの意思決定に集中できると強調しています。Harness-1の公開は、検索拡張生成分野に強力なオープンソースツールを提供し、さらなる研究と応用を促進することが期待されます。