Harness-1:一個基於gpt-oss-20b、在有狀態搜索框架內通過強化學習訓練的200億參數檢索子代理
Harness-1是一個200億參數的檢索子代理,基於gpt-oss-20b模型,通過在有狀態搜索框架內進行強化學習訓練而成。該框架負責維護候選池、重要性標記的精選集、證據圖和驗證記錄等簿記工作,而策略則決定搜索、精選、驗證的內容以及何時停止。在八個基準測試中,Harness-1的平均精選召回率達到0.730,比下一個最佳開源子代理高出11.4個百分點,僅次於Opus-4.6。其權重和框架代碼均已公開。
大多數搜索代理是在不斷增長的轉錄軌跡上訓練策略。模型需要決定如何搜索,同時還要記住看到的內容、哪些證據重要以及哪些主張已經核實。來自伊利諾伊大學厄巴納-香檳分校、加州大學伯克利分校和Chroma的研究團隊認為,這種要求過高。強化學習最終會同時優化搜索決策和日常簿記工作。
他們的解決方案是Harness-1,一個基於gpt-oss-20b的200億參數檢索子代理。該代理通過在有狀態搜索框架內進行強化學習訓練而成。框架負責維護候選池、重要性標記的精選集、證據圖以及驗證記錄等所有簿記工作。策略則保留語義決策——決定搜索什麼、精選什麼、驗證什麼以及何時停止。權重和框架代碼均已公開。
Harness-1在八個基準測試中進行了評估,包括自然問題、TriviaQA、HotpotQA等。其平均精選召回率達到0.730,比下一個最佳開源子代理高出11.4個百分點,僅落後於專有的Opus-4.6。這表明,將簿記與決策分離可以顯著提升檢索性能。
研究人員強調,這種設計減少了強化學習的複雜性,使策略能夠專注於高級決策。Harness-1的發佈為檢索增強生成領域提供了一個強大的開源工具,有望推動更多研究與應用。