2026-06-24 19:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-24 21:15 UTC+8

Harness-1：20B引數檢索子智慧體，搜尋能力超越GPT-5.4

Harness-1透過將狀態管理從模型中分離，採用簡潔的八工具介面和兩階段壓縮，實現了更高效的搜尋。

來源Analytics Vidhya作者: Riya Bansal

大多數搜尋智慧體試圖同時處理過多工：生成新查詢、記錄已探索內容、收集證據、判斷相關性。這導致整個過程混亂、成本高昂且難以控制。Harness-1 採取了更簡潔的方法，由伊利諾伊大學厄巴納-香檳分校（UIUC）、加州大學伯克利分校（UC Berkeley）和 Chroma 的研究人員共同開發。它將搜尋詞的發現與搜尋進度的跟蹤分離，從而實現了遠超其模型規模的表現。

Harness-1 的核心創新在於其狀態化的“控制框架”（harness）。該框架將模型作為狀態機執行，維護四個持久結構：候選池（包含所有壓縮和去重後的文件）、精選集（最多30個文件，帶有重要性標記）、全文儲存（所有檢索到的原始資料）和證據圖（自動提取的實體及其關係）。證據圖部分尤其巧妙：正規表示式提取器掃描每個檢索到的文件，識別專有名詞、年份和日期。橋樑文件（包含多個常見共現實體）被標記為極高優先順序，而孤立實體則提示潛在的後續搜尋。在每個時間步，框架以緊湊高效的方式呈現這些資訊。

模型在每個時間步透過八種工具之一進行操作。兩階段壓縮應用於檢索輸出：第一階段使用 Sentence-BM25 對句子排序並選取每個塊的前4個；第二階段透過雙重去重（按塊 ID 和內容指紋）進一步精簡。策略（policy）永遠不會看到原始檢索輸出，從而保持了上下文的清潔。

針對訓練中的冷啟動問題，Harness-1 採用暖啟動播種（warm-start seeding）。在首次成功搜尋後，框架自動使用前8個重排結果（帶有公平性評級）生成精選集。這樣，策略從零開始建立轉變為最佳化調整（提升高質量文件的價值，降低低質量文件的權重），大大提升了訓練穩定性。

訓練分為兩個階段。第一階段是監督微調：使用教師模型 GPT-5.4 在完整框架中執行，收集了899個有效軌跡，訓練模型正確呼叫工具、結構化動作和更新精選集。第二階段是強化學習：使用 CISPO 演算法，獎勵函式僅基於終端獎勵，包含發現獎勵（找到新相關文件）和選擇獎勵（精選召回率），並加入工具多樣性獎勵。多樣性獎勵至關重要：沒有它，模型會陷入重複搜尋的迴圈（精選召回率僅0.53），而加入後模型學會使用 grep_corpus、verify 和 read_document 等工具，召回率提升至0.60。

對於本地部署，Harness-1 使用 uv 管理依賴和 vLLM 提供推理服務。需要足夠的 GPU 視訊記憶體來執行20B引數模型（如單張 A100 80GB 或兩張 A100 40GB 透過張量並行）。克隆倉庫後執行 uv sync --extra vllm 安裝依賴，然後啟動 vLLM 伺服器，即可透過 OpenAI 相容 API 傳送搜尋請求。

在八個基準測試（包括網頁搜尋、SEC 財務檔案、專利和多跳問答）中，Harness-1 的精選召回率達到0.730，超過了 GPT-5.4（0.709）、Sonnet-4.6（0.688）和 Kimi-K2.5（0.647），接近 Opus-4.6（0.764）。值得注意的是，Harness-1 作為檢索子智慧體，不負責推理或摘要生成，其 RL 訓練僅在 SEC 查詢上進行，但展現出了良好的領域泛化能力。這一結果表明，將狀態管理從模型中分離出來可以顯著提升檢索效率，為構建更高效的智慧檢索系統提供了新思路。