2026-06-24 19:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-24 21:15 UTC+8

Harness-1：20B參數檢索子智能體，搜索能力超越GPT-5.4

Harness-1通過將狀態管理從模型中分離，採用簡潔的八工具接口和兩階段壓縮，實現了更高效的搜索。

來源Analytics Vidhya作者: Riya Bansal

大多數搜索智能體試圖同時處理過多任務：生成新查詢、記錄已探索內容、收集證據、判斷相關性。這導致整個過程混亂、成本高昂且難以控制。Harness-1 採取了更簡潔的方法，由伊利諾伊大學厄巴納-香檳分校（UIUC）、加州大學伯克利分校（UC Berkeley）和 Chroma 的研究人員共同開發。它將搜索詞的發現與搜索進度的跟蹤分離，從而實現了遠超其模型規模的表現。

Harness-1 的核心創新在於其狀態化的“控制框架”（harness）。該框架將模型作為狀態機運行，維護四個持久結構：候選池（包含所有壓縮和去重後的文檔）、精選集（最多30個文檔，帶有重要性標記）、全文存儲（所有檢索到的原始數據）和證據圖（自動提取的實體及其關係）。證據圖部分尤其巧妙：正則表達式提取器掃描每個檢索到的文檔，識別專有名詞、年份和日期。橋樑文檔（包含多個常見共現實體）被標記為極高優先級，而孤立實體則提示潛在的後續搜索。在每個時間步，框架以緊湊高效的方式呈現這些信息。

模型在每個時間步通過八種工具之一進行操作。兩階段壓縮應用於檢索輸出：第一階段使用 Sentence-BM25 對句子排序並選取每個塊的前4個；第二階段通過雙重去重（按塊 ID 和內容指紋）進一步精簡。策略（policy）永遠不會看到原始檢索輸出，從而保持了上下文的清潔。

針對訓練中的冷啓動問題，Harness-1 採用暖啓動播種（warm-start seeding）。在首次成功搜索後，框架自動使用前8個重排結果（帶有公平性評級）生成精選集。這樣，策略從零開始創建轉變為優化調整（提升高質量文檔的價值，降低低質量文檔的權重），大大提升了訓練穩定性。

訓練分為兩個階段。第一階段是監督微調：使用教師模型 GPT-5.4 在完整框架中運行，收集了899個有效軌跡，訓練模型正確調用工具、結構化動作和更新精選集。第二階段是強化學習：使用 CISPO 算法，獎勵函數僅基於終端獎勵，包含發現獎勵（找到新相關文檔）和選擇獎勵（精選召回率），並加入工具多樣性獎勵。多樣性獎勵至關重要：沒有它，模型會陷入重複搜索的循環（精選召回率僅0.53），而加入後模型學會使用 grep_corpus、verify 和 read_document 等工具，召回率提升至0.60。

對於本地部署，Harness-1 使用 uv 管理依賴和 vLLM 提供推理服務。需要足夠的 GPU 顯存來運行20B參數模型（如單張 A100 80GB 或兩張 A100 40GB 通過張量並行）。克隆倉庫後運行 uv sync --extra vllm 安裝依賴，然後啓動 vLLM 服務器，即可通過 OpenAI 兼容 API 發送搜索請求。

在八個基準測試（包括網頁搜索、SEC 財務文件、專利和多跳問答）中，Harness-1 的精選召回率達到0.730，超過了 GPT-5.4（0.709）、Sonnet-4.6（0.688）和 Kimi-K2.5（0.647），接近 Opus-4.6（0.764）。值得注意的是，Harness-1 作為檢索子智能體，不負責推理或摘要生成，其 RL 訓練僅在 SEC 查詢上進行，但展現出了良好的領域泛化能力。這一結果表明，將狀態管理從模型中分離出來可以顯著提升檢索效率，為構建更高效的智能檢索系統提供了新思路。