Harness-1:20B參數檢索子智能體,搜索能力超越GPT-5.4
Harness-1通過將狀態管理從模型中分離,採用簡潔的八工具接口和兩階段壓縮,實現了更高效的搜索。
大多數搜索智能體試圖同時處理過多任務:生成新查詢、記錄已探索內容、收集證據、判斷相關性。這導致整個過程混亂、成本高昂且難以控制。Harness-1 採取了更簡潔的方法,由伊利諾伊大學厄巴納-香檳分校(UIUC)、加州大學伯克利分校(UC Berkeley)和 Chroma 的研究人員共同開發。它將搜索詞的發現與搜索進度的跟蹤分離,從而實現了遠超其模型規模的表現。
Harness-1 的核心創新在於其狀態化的“控制框架”(harness)。該框架將模型作為狀態機運行,維護四個持久結構:候選池(包含所有壓縮和去重後的文檔)、精選集(最多30個文檔,帶有重要性標記)、全文存儲(所有檢索到的原始數據)和證據圖(自動提取的實體及其關係)。證據圖部分尤其巧妙:正則表達式提取器掃描每個檢索到的文檔,識別專有名詞、年份和日期。橋樑文檔(包含多個常見共現實體)被標記為極高優先級,而孤立實體則提示潛在的後續搜索。在每個時間步,框架以緊湊高效的方式呈現這些信息。
模型在每個時間步通過八種工具之一進行操作。兩階段壓縮應用於檢索輸出:第一階段使用 Sentence-BM25 對句子排序並選取每個塊的前4個;第二階段通過雙重去重(按塊 ID 和內容指紋)進一步精簡。策略(policy)永遠不會看到原始檢索輸出,從而保持了上下文的清潔。
針對訓練中的冷啓動問題,Harness-1 採用暖啓動播種(warm-start seeding)。在首次成功搜索後,框架自動使用前8個重排結果(帶有公平性評級)生成精選集。這樣,策略從零開始創建轉變為優化調整(提升高質量文檔的價值,降低低質量文檔的權重),大大提升了訓練穩定性。
訓練分為兩個階段。第一階段是監督微調:使用教師模型 GPT-5.4 在完整框架中運行,收集了899個有效軌跡,訓練模型正確調用工具、結構化動作和更新精選集。第二階段是強化學習:使用 CISPO 算法,獎勵函數僅基於終端獎勵,包含發現獎勵(找到新相關文檔)和選擇獎勵(精選召回率),並加入工具多樣性獎勵。多樣性獎勵至關重要:沒有它,模型會陷入重複搜索的循環(精選召回率僅0.53),而加入後模型學會使用 grep_corpus、verify 和 read_document 等工具,召回率提升至0.60。
對於本地部署,Harness-1 使用 uv 管理依賴和 vLLM 提供推理服務。需要足夠的 GPU 顯存來運行20B參數模型(如單張 A100 80GB 或兩張 A100 40GB 通過張量並行)。克隆倉庫後運行 uv sync --extra vllm 安裝依賴,然後啓動 vLLM 服務器,即可通過 OpenAI 兼容 API 發送搜索請求。
在八個基準測試(包括網頁搜索、SEC 財務文件、專利和多跳問答)中,Harness-1 的精選召回率達到0.730,超過了 GPT-5.4(0.709)、Sonnet-4.6(0.688)和 Kimi-K2.5(0.647),接近 Opus-4.6(0.764)。值得注意的是,Harness-1 作為檢索子智能體,不負責推理或摘要生成,其 RL 訓練僅在 SEC 查詢上進行,但展現出了良好的領域泛化能力。這一結果表明,將狀態管理從模型中分離出來可以顯著提升檢索效率,為構建更高效的智能檢索系統提供了新思路。