2026-06-24 19:00 UTC+8站内改写2 分钟阅读更新: 2026-06-24 21:15 UTC+8

Harness-1：20B参数检索子智能体，搜索能力超越GPT-5.4

Harness-1通过将状态管理从模型中分离，采用简洁的八工具接口和两阶段压缩，实现了更高效的搜索。

来源Analytics Vidhya作者: Riya Bansal

大多数搜索智能体试图同时处理过多任务：生成新查询、记录已探索内容、收集证据、判断相关性。这导致整个过程混乱、成本高昂且难以控制。Harness-1 采取了更简洁的方法，由伊利诺伊大学厄巴纳-香槟分校（UIUC）、加州大学伯克利分校（UC Berkeley）和 Chroma 的研究人员共同开发。它将搜索词的发现与搜索进度的跟踪分离，从而实现了远超其模型规模的表现。

Harness-1 的核心创新在于其状态化的“控制框架”（harness）。该框架将模型作为状态机运行，维护四个持久结构：候选池（包含所有压缩和去重后的文档）、精选集（最多30个文档，带有重要性标记）、全文存储（所有检索到的原始数据）和证据图（自动提取的实体及其关系）。证据图部分尤其巧妙：正则表达式提取器扫描每个检索到的文档，识别专有名词、年份和日期。桥梁文档（包含多个常见共现实体）被标记为极高优先级，而孤立实体则提示潜在的后续搜索。在每个时间步，框架以紧凑高效的方式呈现这些信息。

模型在每个时间步通过八种工具之一进行操作。两阶段压缩应用于检索输出：第一阶段使用 Sentence-BM25 对句子排序并选取每个块的前4个；第二阶段通过双重去重（按块 ID 和内容指纹）进一步精简。策略（policy）永远不会看到原始检索输出，从而保持了上下文的清洁。

针对训练中的冷启动问题，Harness-1 采用暖启动播种（warm-start seeding）。在首次成功搜索后，框架自动使用前8个重排结果（带有公平性评级）生成精选集。这样，策略从零开始创建转变为优化调整（提升高质量文档的价值，降低低质量文档的权重），大大提升了训练稳定性。

训练分为两个阶段。第一阶段是监督微调：使用教师模型 GPT-5.4 在完整框架中运行，收集了899个有效轨迹，训练模型正确调用工具、结构化动作和更新精选集。第二阶段是强化学习：使用 CISPO 算法，奖励函数仅基于终端奖励，包含发现奖励（找到新相关文档）和选择奖励（精选召回率），并加入工具多样性奖励。多样性奖励至关重要：没有它，模型会陷入重复搜索的循环（精选召回率仅0.53），而加入后模型学会使用 grep_corpus、verify 和 read_document 等工具，召回率提升至0.60。

对于本地部署，Harness-1 使用 uv 管理依赖和 vLLM 提供推理服务。需要足够的 GPU 显存来运行20B参数模型（如单张 A100 80GB 或两张 A100 40GB 通过张量并行）。克隆仓库后运行 uv sync --extra vllm 安装依赖，然后启动 vLLM 服务器，即可通过 OpenAI 兼容 API 发送搜索请求。

在八个基准测试（包括网页搜索、SEC 财务文件、专利和多跳问答）中，Harness-1 的精选召回率达到0.730，超过了 GPT-5.4（0.709）、Sonnet-4.6（0.688）和 Kimi-K2.5（0.647），接近 Opus-4.6（0.764）。值得注意的是，Harness-1 作为检索子智能体，不负责推理或摘要生成，其 RL 训练仅在 SEC 查询上进行，但展现出了良好的领域泛化能力。这一结果表明，将状态管理从模型中分离出来可以显著提升检索效率，为构建更高效的智能检索系统提供了新思路。