2026-06-07 14:25 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Harness-1：一个基于gpt-oss-20b、在有状态搜索框架内通过强化学习训练的200亿参数检索子代理

Harness-1是一个200亿参数的检索子代理，基于gpt-oss-20b模型，通过在有状态搜索框架内进行强化学习训练而成。该框架负责维护候选池、重要性标记的精选集、证据图和验证记录等簿记工作，而策略则决定搜索、精选、验证的内容以及何时停止。在八个基准测试中，Harness-1的平均精选召回率达到0.730，比下一个最佳开源子代理高出11.4个百分点，仅次于Opus-4.6。其权重和框架代码均已公开。

来源MarkTechPost作者: Asif Razzaq

大多数搜索代理是在不断增长的转录轨迹上训练策略。模型需要决定如何搜索，同时还要记住看到的内容、哪些证据重要以及哪些主张已经核实。来自伊利诺伊大学厄巴纳-香槟分校、加州大学伯克利分校和Chroma的研究团队认为，这种要求过高。强化学习最终会同时优化搜索决策和日常簿记工作。

他们的解决方案是Harness-1，一个基于gpt-oss-20b的200亿参数检索子代理。该代理通过在有状态搜索框架内进行强化学习训练而成。框架负责维护候选池、重要性标记的精选集、证据图以及验证记录等所有簿记工作。策略则保留语义决策——决定搜索什么、精选什么、验证什么以及何时停止。权重和框架代码均已公开。

Harness-1在八个基准测试中进行了评估，包括自然问题、TriviaQA、HotpotQA等。其平均精选召回率达到0.730，比下一个最佳开源子代理高出11.4个百分点，仅落后于专有的Opus-4.6。这表明，将簿记与决策分离可以显著提升检索性能。

研究人员强调，这种设计减少了强化学习的复杂性，使策略能够专注于高级决策。Harness-1的发布为检索增强生成领域提供了一个强大的开源工具，有望推动更多研究与应用。