AI News HubLIVE
站內改寫2 分鐘閱讀

Harness-1:20B引數檢索子智慧體,搜尋能力超越GPT-5.4

Harness-1透過將狀態管理從模型中分離,採用簡潔的八工具介面和兩階段壓縮,實現了更高效的搜尋。

來源Analytics Vidhya作者: Riya Bansal

大多數搜尋智慧體試圖同時處理過多工:生成新查詢、記錄已探索內容、收集證據、判斷相關性。這導致整個過程混亂、成本高昂且難以控制。Harness-1 採取了更簡潔的方法,由伊利諾伊大學厄巴納-香檳分校(UIUC)、加州大學伯克利分校(UC Berkeley)和 Chroma 的研究人員共同開發。它將搜尋詞的發現與搜尋進度的跟蹤分離,從而實現了遠超其模型規模的表現。

Harness-1 的核心創新在於其狀態化的“控制框架”(harness)。該框架將模型作為狀態機執行,維護四個持久結構:候選池(包含所有壓縮和去重後的文件)、精選集(最多30個文件,帶有重要性標記)、全文儲存(所有檢索到的原始資料)和證據圖(自動提取的實體及其關係)。證據圖部分尤其巧妙:正規表示式提取器掃描每個檢索到的文件,識別專有名詞、年份和日期。橋樑文件(包含多個常見共現實體)被標記為極高優先順序,而孤立實體則提示潛在的後續搜尋。在每個時間步,框架以緊湊高效的方式呈現這些資訊。

模型在每個時間步透過八種工具之一進行操作。兩階段壓縮應用於檢索輸出:第一階段使用 Sentence-BM25 對句子排序並選取每個塊的前4個;第二階段透過雙重去重(按塊 ID 和內容指紋)進一步精簡。策略(policy)永遠不會看到原始檢索輸出,從而保持了上下文的清潔。

針對訓練中的冷啟動問題,Harness-1 採用暖啟動播種(warm-start seeding)。在首次成功搜尋後,框架自動使用前8個重排結果(帶有公平性評級)生成精選集。這樣,策略從零開始建立轉變為最佳化調整(提升高質量文件的價值,降低低質量文件的權重),大大提升了訓練穩定性。

訓練分為兩個階段。第一階段是監督微調:使用教師模型 GPT-5.4 在完整框架中執行,收集了899個有效軌跡,訓練模型正確呼叫工具、結構化動作和更新精選集。第二階段是強化學習:使用 CISPO 演算法,獎勵函式僅基於終端獎勵,包含發現獎勵(找到新相關文件)和選擇獎勵(精選召回率),並加入工具多樣性獎勵。多樣性獎勵至關重要:沒有它,模型會陷入重複搜尋的迴圈(精選召回率僅0.53),而加入後模型學會使用 grep_corpus、verify 和 read_document 等工具,召回率提升至0.60。

對於本地部署,Harness-1 使用 uv 管理依賴和 vLLM 提供推理服務。需要足夠的 GPU 視訊記憶體來執行20B引數模型(如單張 A100 80GB 或兩張 A100 40GB 透過張量並行)。克隆倉庫後執行 uv sync --extra vllm 安裝依賴,然後啟動 vLLM 伺服器,即可透過 OpenAI 相容 API 傳送搜尋請求。

在八個基準測試(包括網頁搜尋、SEC 財務檔案、專利和多跳問答)中,Harness-1 的精選召回率達到0.730,超過了 GPT-5.4(0.709)、Sonnet-4.6(0.688)和 Kimi-K2.5(0.647),接近 Opus-4.6(0.764)。值得注意的是,Harness-1 作為檢索子智慧體,不負責推理或摘要生成,其 RL 訓練僅在 SEC 查詢上進行,但展現出了良好的領域泛化能力。這一結果表明,將狀態管理從模型中分離出來可以顯著提升檢索效率,為構建更高效的智慧檢索系統提供了新思路。