2026-06-07 14:25 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Harness-1：一個基於gpt-oss-20b、在有狀態搜索框架內通過強化學習訓練的200億參數檢索子代理

Harness-1是一個200億參數的檢索子代理，基於gpt-oss-20b模型，通過在有狀態搜索框架內進行強化學習訓練而成。該框架負責維護候選池、重要性標記的精選集、證據圖和驗證記錄等簿記工作，而策略則決定搜索、精選、驗證的內容以及何時停止。在八個基準測試中，Harness-1的平均精選召回率達到0.730，比下一個最佳開源子代理高出11.4個百分點，僅次於Opus-4.6。其權重和框架代碼均已公開。

來源MarkTechPost作者: Asif Razzaq

大多數搜索代理是在不斷增長的轉錄軌跡上訓練策略。模型需要決定如何搜索，同時還要記住看到的內容、哪些證據重要以及哪些主張已經核實。來自伊利諾伊大學厄巴納-香檳分校、加州大學伯克利分校和Chroma的研究團隊認為，這種要求過高。強化學習最終會同時優化搜索決策和日常簿記工作。

他們的解決方案是Harness-1，一個基於gpt-oss-20b的200億參數檢索子代理。該代理通過在有狀態搜索框架內進行強化學習訓練而成。框架負責維護候選池、重要性標記的精選集、證據圖以及驗證記錄等所有簿記工作。策略則保留語義決策——決定搜索什麼、精選什麼、驗證什麼以及何時停止。權重和框架代碼均已公開。

Harness-1在八個基準測試中進行了評估，包括自然問題、TriviaQA、HotpotQA等。其平均精選召回率達到0.730，比下一個最佳開源子代理高出11.4個百分點，僅落後於專有的Opus-4.6。這表明，將簿記與決策分離可以顯著提升檢索性能。

研究人員強調，這種設計減少了強化學習的複雜性，使策略能夠專注於高級決策。Harness-1的發佈為檢索增強生成領域提供了一個強大的開源工具，有望推動更多研究與應用。