AI News HubLIVE
站內改寫2 分鐘閱讀

Mistral AI 推出 Search Toolkit:構建生產級搜索的統一框架

Mistral AI 發佈了 Search Toolkit 公開預覽版,這是一個用於構建 AI 應用生產搜索管道的可組合框架。它整合了數據攝取、檢索和評估三個環節,提供統一接口,減少集成時間,提升搜索質量。支持多種檢索方式(BM25、稠密向量、混合檢索),並內置評估指標。適用於企業搜索、RAG 系統及領域特定檢索,已在多個行業驗證。

Mistral AI 今天宣佈推出 Search Toolkit 的公開預覽版,這是一個專為 AI 應用設計的可組合搜索框架,旨在簡化生產級搜索管道的構建過程。當前,許多團隊在搭建檢索系統時,仍需要花費大量時間整合各種獨立的工具,這些工具各有不同的接口和數據假設,導致集成工作繁重。Search Toolkit 將數據攝取、檢索和評估三大核心環節統一到一個共享接口的框架中,使團隊能夠將精力集中在提升搜索質量上,而非維護集成。該工具完全開源,可在雲端、本地或邊緣環境中運行。

在傳統架構中,團隊往往需要為每個數據源(如內部 wiki、工單系統、文檔庫、代碼倉庫等)構建單獨的攝取管道,每個管道都有不同的解析邏輯和分塊策略,最終導致孤立的索引或脆弱的自定義層。Search Toolkit 通過提供一致的處理和索引模式,使得團隊可以輕鬆添加新數據源,而無需重建整個管道。

對於 RAG(檢索增強生成)系統而言,當輸出結果不佳時,團隊很難快速判斷問題是出在檢索還是生成環節。Search Toolkit 內置了獨立的評估功能,支持召回率、精確率、MRR(平均倒數排名)和 NDCG(歸一化折損累計增益)等指標,允許團隊在自己的數據集上比較不同的檢索配置,從而隔離檢索質量與生成質量。

此外,Search Toolkit 還支持領域特定檢索,例如法律文件、醫療記錄、代碼庫和財務披露等場景。通用檢索器往往難以處理專業術語和文檔結構,而 Search Toolkit 的靈活性允許團隊定製檢索策略。

在智能體(Agent)應用方面,Search Toolkit 為代理提供了高質量索引搜索路徑,同時通過連接器(Connectors)支持從 CRM、代碼倉庫等源系統實時拉取數據。代理可以自主進行檢索決策,而底層搜索基礎設施的質量直接影響每一步下游操作。

Search Toolkit 包含三個主要模塊:攝取(Ingestion)模塊負責文檔解析、分塊和嵌入生成;檢索(Retrieval)模塊提供 BM25 稀疏檢索、稠密向量檢索以及混合配置;評估(Evaluation)模塊內置多種指標以衡量搜索質量。所有模塊共享相同的配置接口,方便替換和擴展。

該工具已在金融服務、製造業、公共部門及媒體娛樂等行業經過實戰檢驗。例如,航運公司 CMA CGM 結合 Search Toolkit 和 Voxtral 幫助記者檢測假新聞,該管道處理來自三個不同數據源的音頻,並在 15 秒內返回告警。

要快速上手,用户可以使用 Mistral AI 提供的 Starter App 模板,該模板預配置了 Vespa 索引、混合檢索及樣本數據。更多細節可參考官方文檔。