2026-06-04 21:31 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

3倍更快搜索：使用Instructed-Retriever-1進行並行測試時擴展

Databricks宣佈Agent Bricks知識助手重大更新，通過Instructed-Retriever-1模型實現搜索速度提升3倍以上，答案生成時間減半，首Token時間降至約2秒。該模型採用並行測試時擴展，同時進行查詢生成和重排序，在不犧牲質量的前提下顯著降低延遲。

來源Databricks Blog

Databricks今日宣佈其Agent Bricks知識助手迎來重大更新，新版本在速度和回答質量上均有顯著提升。通過引入Instructed-Retriever-1模型，答案生成時間縮短至原來的一半，搜索時間更是降低了超過3倍，首次令牌生成時間（TTFT）降至約2秒。用户無需重新配置，即可在各個用例中獲得更快的回答，且質量不受影響。

Instructed-Retriever-1是一個專為檢索優化的模型，支持並行測試時擴展。與傳統的順序代理檢索不同，後者需要代理逐步推理每個結果後再決定下一步，Instructed-Retriever-1將多個檢索階段並行處理。該模型同時負責查詢生成（提升召回率）和重排序（提升精確率），兩者並行運行以保持低延遲。

在訓練過程中，研究人員採用了合成企業級檢索環境，使模型能夠處理包括事實查詢、總結、推薦、問題解決和決策支持在內的多種任務。模型經過兩階段訓練，同時掌握了查詢生成和驗證式檢索能力，為並行測試時擴展奠定了堅實基礎。

實際工作負載評估顯示，Instructed-Retriever-1在查詢生成質量指標（如特異性、廣度和相關性）上表現強勁，重排序效果與Claude Sonnet 4.5相當，nDCG@10得分達到81.0，相比無重排序基線提升14.1%。此外，通過混合專家架構、FP8量化和推測解碼等優化，模型在保持高質量的同時實現了高效服務。

整個系統提供了兩個測試時擴展旋鈕：增加查詢和過濾公式的數量可提高召回率，增加支點數量可提高精確率。由於兩個階段都可以並行處理，系統能夠在保持低延遲的同時，用額外的測試時計算換取更高質量的上下文。

在服務性能方面，Instructed-Retriever-1採用混合專家架構，並應用了FP8量化（使用NVIDIA ModelOpt庫）和推測解碼等優化。評估表明，與BF16相比，FP8在推理速度和吞吐量上有所提升，且質量沒有明顯下降。推測解碼為查詢生成和重排序的組合路徑增加了30%以上的加速。

結論：此更新將並行測試時擴展引入生產搜索堆棧。系統通過並行查詢和過濾生成進行廣泛檢索，然後通過多支點證據比較進行精確重排序。結果是知識助手既更好又更快：搜索時間減少3倍以上，答案生成時間減少2倍，TTFT約為2秒，端到端延遲在離線評估設置中持續低於10秒。

早期用户已經注意到了差異。例如，貝勒大學將新體驗描述為“更簡潔，感覺更靈敏，能更快呈現關鍵信息，用户體驗顯著提升。”——Kyle Van Pelt，貝勒大學招生管理流程與治理主任。

目前，Instructed-Retriever-1已開始向所有客户推送，幫助團隊以更短的時間獲取更高質量的上下文。