AI News HubLIVE
站内改写2 分钟阅读

3倍更快搜索:使用Instructed-Retriever-1进行并行测试时扩展

Databricks宣布Agent Bricks知识助手重大更新,通过Instructed-Retriever-1模型实现搜索速度提升3倍以上,答案生成时间减半,首Token时间降至约2秒。该模型采用并行测试时扩展,同时进行查询生成和重排序,在不牺牲质量的前提下显著降低延迟。

Databricks今日宣布其Agent Bricks知识助手迎来重大更新,新版本在速度和回答质量上均有显著提升。通过引入Instructed-Retriever-1模型,答案生成时间缩短至原来的一半,搜索时间更是降低了超过3倍,首次令牌生成时间(TTFT)降至约2秒。用户无需重新配置,即可在各个用例中获得更快的回答,且质量不受影响。

Instructed-Retriever-1是一个专为检索优化的模型,支持并行测试时扩展。与传统的顺序代理检索不同,后者需要代理逐步推理每个结果后再决定下一步,Instructed-Retriever-1将多个检索阶段并行处理。该模型同时负责查询生成(提升召回率)和重排序(提升精确率),两者并行运行以保持低延迟。

在训练过程中,研究人员采用了合成企业级检索环境,使模型能够处理包括事实查询、总结、推荐、问题解决和决策支持在内的多种任务。模型经过两阶段训练,同时掌握了查询生成和验证式检索能力,为并行测试时扩展奠定了坚实基础。

实际工作负载评估显示,Instructed-Retriever-1在查询生成质量指标(如特异性、广度和相关性)上表现强劲,重排序效果与Claude Sonnet 4.5相当,nDCG@10得分达到81.0,相比无重排序基线提升14.1%。此外,通过混合专家架构、FP8量化和推测解码等优化,模型在保持高质量的同时实现了高效服务。

整个系统提供了两个测试时扩展旋钮:增加查询和过滤公式的数量可提高召回率,增加支点数量可提高精确率。由于两个阶段都可以并行处理,系统能够在保持低延迟的同时,用额外的测试时计算换取更高质量的上下文。

在服务性能方面,Instructed-Retriever-1采用混合专家架构,并应用了FP8量化(使用NVIDIA ModelOpt库)和推测解码等优化。评估表明,与BF16相比,FP8在推理速度和吞吐量上有所提升,且质量没有明显下降。推测解码为查询生成和重排序的组合路径增加了30%以上的加速。

结论:此更新将并行测试时扩展引入生产搜索堆栈。系统通过并行查询和过滤生成进行广泛检索,然后通过多支点证据比较进行精确重排序。结果是知识助手既更好又更快:搜索时间减少3倍以上,答案生成时间减少2倍,TTFT约为2秒,端到端延迟在离线评估设置中持续低于10秒。

早期用户已经注意到了差异。例如,贝勒大学将新体验描述为“更简洁,感觉更灵敏,能更快呈现关键信息,用户体验显著提升。”——Kyle Van Pelt,贝勒大学招生管理流程与治理主任。

目前,Instructed-Retriever-1已开始向所有客户推送,帮助团队以更短的时间获取更高质量的上下文。