2026-06-04 21:31 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

3倍更快搜索：使用Instructed-Retriever-1进行并行测试时扩展

Databricks宣布Agent Bricks知识助手重大更新，通过Instructed-Retriever-1模型实现搜索速度提升3倍以上，答案生成时间减半，首Token时间降至约2秒。该模型采用并行测试时扩展，同时进行查询生成和重排序，在不牺牲质量的前提下显著降低延迟。

来源Databricks Blog

Databricks今日宣布其Agent Bricks知识助手迎来重大更新，新版本在速度和回答质量上均有显著提升。通过引入Instructed-Retriever-1模型，答案生成时间缩短至原来的一半，搜索时间更是降低了超过3倍，首次令牌生成时间（TTFT）降至约2秒。用户无需重新配置，即可在各个用例中获得更快的回答，且质量不受影响。

Instructed-Retriever-1是一个专为检索优化的模型，支持并行测试时扩展。与传统的顺序代理检索不同，后者需要代理逐步推理每个结果后再决定下一步，Instructed-Retriever-1将多个检索阶段并行处理。该模型同时负责查询生成（提升召回率）和重排序（提升精确率），两者并行运行以保持低延迟。

在训练过程中，研究人员采用了合成企业级检索环境，使模型能够处理包括事实查询、总结、推荐、问题解决和决策支持在内的多种任务。模型经过两阶段训练，同时掌握了查询生成和验证式检索能力，为并行测试时扩展奠定了坚实基础。

实际工作负载评估显示，Instructed-Retriever-1在查询生成质量指标（如特异性、广度和相关性）上表现强劲，重排序效果与Claude Sonnet 4.5相当，nDCG@10得分达到81.0，相比无重排序基线提升14.1%。此外，通过混合专家架构、FP8量化和推测解码等优化，模型在保持高质量的同时实现了高效服务。

整个系统提供了两个测试时扩展旋钮：增加查询和过滤公式的数量可提高召回率，增加支点数量可提高精确率。由于两个阶段都可以并行处理，系统能够在保持低延迟的同时，用额外的测试时计算换取更高质量的上下文。

在服务性能方面，Instructed-Retriever-1采用混合专家架构，并应用了FP8量化（使用NVIDIA ModelOpt库）和推测解码等优化。评估表明，与BF16相比，FP8在推理速度和吞吐量上有所提升，且质量没有明显下降。推测解码为查询生成和重排序的组合路径增加了30%以上的加速。

结论：此更新将并行测试时扩展引入生产搜索堆栈。系统通过并行查询和过滤生成进行广泛检索，然后通过多支点证据比较进行精确重排序。结果是知识助手既更好又更快：搜索时间减少3倍以上，答案生成时间减少2倍，TTFT约为2秒，端到端延迟在离线评估设置中持续低于10秒。

早期用户已经注意到了差异。例如，贝勒大学将新体验描述为“更简洁，感觉更灵敏，能更快呈现关键信息，用户体验显著提升。”——Kyle Van Pelt，贝勒大学招生管理流程与治理主任。

目前，Instructed-Retriever-1已开始向所有客户推送，帮助团队以更短的时间获取更高质量的上下文。