AI News HubLIVE
站内改写2 分钟阅读

Harness-1:20B参数检索子智能体,搜索能力超越GPT-5.4

Harness-1通过将状态管理从模型中分离,采用简洁的八工具接口和两阶段压缩,实现了更高效的搜索。

来源Analytics Vidhya作者: Riya Bansal

大多数搜索智能体试图同时处理过多任务:生成新查询、记录已探索内容、收集证据、判断相关性。这导致整个过程混乱、成本高昂且难以控制。Harness-1 采取了更简洁的方法,由伊利诺伊大学厄巴纳-香槟分校(UIUC)、加州大学伯克利分校(UC Berkeley)和 Chroma 的研究人员共同开发。它将搜索词的发现与搜索进度的跟踪分离,从而实现了远超其模型规模的表现。

Harness-1 的核心创新在于其状态化的“控制框架”(harness)。该框架将模型作为状态机运行,维护四个持久结构:候选池(包含所有压缩和去重后的文档)、精选集(最多30个文档,带有重要性标记)、全文存储(所有检索到的原始数据)和证据图(自动提取的实体及其关系)。证据图部分尤其巧妙:正则表达式提取器扫描每个检索到的文档,识别专有名词、年份和日期。桥梁文档(包含多个常见共现实体)被标记为极高优先级,而孤立实体则提示潜在的后续搜索。在每个时间步,框架以紧凑高效的方式呈现这些信息。

模型在每个时间步通过八种工具之一进行操作。两阶段压缩应用于检索输出:第一阶段使用 Sentence-BM25 对句子排序并选取每个块的前4个;第二阶段通过双重去重(按块 ID 和内容指纹)进一步精简。策略(policy)永远不会看到原始检索输出,从而保持了上下文的清洁。

针对训练中的冷启动问题,Harness-1 采用暖启动播种(warm-start seeding)。在首次成功搜索后,框架自动使用前8个重排结果(带有公平性评级)生成精选集。这样,策略从零开始创建转变为优化调整(提升高质量文档的价值,降低低质量文档的权重),大大提升了训练稳定性。

训练分为两个阶段。第一阶段是监督微调:使用教师模型 GPT-5.4 在完整框架中运行,收集了899个有效轨迹,训练模型正确调用工具、结构化动作和更新精选集。第二阶段是强化学习:使用 CISPO 算法,奖励函数仅基于终端奖励,包含发现奖励(找到新相关文档)和选择奖励(精选召回率),并加入工具多样性奖励。多样性奖励至关重要:没有它,模型会陷入重复搜索的循环(精选召回率仅0.53),而加入后模型学会使用 grep_corpus、verify 和 read_document 等工具,召回率提升至0.60。

对于本地部署,Harness-1 使用 uv 管理依赖和 vLLM 提供推理服务。需要足够的 GPU 显存来运行20B参数模型(如单张 A100 80GB 或两张 A100 40GB 通过张量并行)。克隆仓库后运行 uv sync --extra vllm 安装依赖,然后启动 vLLM 服务器,即可通过 OpenAI 兼容 API 发送搜索请求。

在八个基准测试(包括网页搜索、SEC 财务文件、专利和多跳问答)中,Harness-1 的精选召回率达到0.730,超过了 GPT-5.4(0.709)、Sonnet-4.6(0.688)和 Kimi-K2.5(0.647),接近 Opus-4.6(0.764)。值得注意的是,Harness-1 作为检索子智能体,不负责推理或摘要生成,其 RL 训练仅在 SEC 查询上进行,但展现出了良好的领域泛化能力。这一结果表明,将状态管理从模型中分离出来可以显著提升检索效率,为构建更高效的智能检索系统提供了新思路。