AI News HubLIVE
站内改写2 分鐘閱讀

3倍更快搜索:使用Instructed-Retriever-1進行並行測試時擴展

Databricks宣佈Agent Bricks知識助手重大更新,通過Instructed-Retriever-1模型實現搜索速度提升3倍以上,答案生成時間減半,首Token時間降至約2秒。該模型採用並行測試時擴展,同時進行查詢生成和重排序,在不犧牲質量的前提下顯著降低延遲。

Databricks今日宣佈其Agent Bricks知識助手迎來重大更新,新版本在速度和回答質量上均有顯著提升。通過引入Instructed-Retriever-1模型,答案生成時間縮短至原來的一半,搜索時間更是降低了超過3倍,首次令牌生成時間(TTFT)降至約2秒。用户無需重新配置,即可在各個用例中獲得更快的回答,且質量不受影響。

Instructed-Retriever-1是一個專為檢索優化的模型,支持並行測試時擴展。與傳統的順序代理檢索不同,後者需要代理逐步推理每個結果後再決定下一步,Instructed-Retriever-1將多個檢索階段並行處理。該模型同時負責查詢生成(提升召回率)和重排序(提升精確率),兩者並行運行以保持低延遲。

在訓練過程中,研究人員採用了合成企業級檢索環境,使模型能夠處理包括事實查詢、總結、推薦、問題解決和決策支持在內的多種任務。模型經過兩階段訓練,同時掌握了查詢生成和驗證式檢索能力,為並行測試時擴展奠定了堅實基礎。

實際工作負載評估顯示,Instructed-Retriever-1在查詢生成質量指標(如特異性、廣度和相關性)上表現強勁,重排序效果與Claude Sonnet 4.5相當,nDCG@10得分達到81.0,相比無重排序基線提升14.1%。此外,通過混合專家架構、FP8量化和推測解碼等優化,模型在保持高質量的同時實現了高效服務。

整個系統提供了兩個測試時擴展旋鈕:增加查詢和過濾公式的數量可提高召回率,增加支點數量可提高精確率。由於兩個階段都可以並行處理,系統能夠在保持低延遲的同時,用額外的測試時計算換取更高質量的上下文。

在服務性能方面,Instructed-Retriever-1採用混合專家架構,並應用了FP8量化(使用NVIDIA ModelOpt庫)和推測解碼等優化。評估表明,與BF16相比,FP8在推理速度和吞吐量上有所提升,且質量沒有明顯下降。推測解碼為查詢生成和重排序的組合路徑增加了30%以上的加速。

結論:此更新將並行測試時擴展引入生產搜索堆棧。系統通過並行查詢和過濾生成進行廣泛檢索,然後通過多支點證據比較進行精確重排序。結果是知識助手既更好又更快:搜索時間減少3倍以上,答案生成時間減少2倍,TTFT約為2秒,端到端延遲在離線評估設置中持續低於10秒。

早期用户已經注意到了差異。例如,貝勒大學將新體驗描述為“更簡潔,感覺更靈敏,能更快呈現關鍵信息,用户體驗顯著提升。”——Kyle Van Pelt,貝勒大學招生管理流程與治理主任。

目前,Instructed-Retriever-1已開始向所有客户推送,幫助團隊以更短的時間獲取更高質量的上下文。