AI News HubLIVE
站內改寫2 分鐘閱讀

Mistral AI 推出 Search Toolkit:構建生產級搜尋的統一框架

Mistral AI 釋出了 Search Toolkit 公開預覽版,這是一個用於構建 AI 應用生產搜尋管道的可組合框架。它整合了資料攝取、檢索和評估三個環節,提供統一介面,減少整合時間,提升搜尋質量。支援多種檢索方式(BM25、稠密向量、混合檢索),並內建評估指標。適用於企業搜尋、RAG 系統及領域特定檢索,已在多個行業驗證。

Mistral AI 今天宣佈推出 Search Toolkit 的公開預覽版,這是一個專為 AI 應用設計的可組合搜尋框架,旨在簡化生產級搜尋管道的構建過程。當前,許多團隊在搭建檢索系統時,仍需要花費大量時間整合各種獨立的工具,這些工具各有不同的介面和資料假設,導致整合工作繁重。Search Toolkit 將資料攝取、檢索和評估三大核心環節統一到一個共享介面的框架中,使團隊能夠將精力集中在提升搜尋質量上,而非維護整合。該工具完全開源,可在雲端、本地或邊緣環境中執行。

在傳統架構中,團隊往往需要為每個資料來源(如內部 wiki、工單系統、文件庫、程式碼倉庫等)構建單獨的攝取管道,每個管道都有不同的解析邏輯和分塊策略,最終導致孤立的索引或脆弱的自定義層。Search Toolkit 透過提供一致的處理和索引模式,使得團隊可以輕鬆新增新資料來源,而無需重建整個管道。

對於 RAG(檢索增強生成)系統而言,當輸出結果不佳時,團隊很難快速判斷問題是出在檢索還是生成環節。Search Toolkit 內建了獨立的評估功能,支援召回率、精確率、MRR(平均倒數排名)和 NDCG(歸一化折損累計增益)等指標,允許團隊在自己的資料集上比較不同的檢索配置,從而隔離檢索質量與生成質量。

此外,Search Toolkit 還支援領域特定檢索,例如法律檔案、醫療記錄、程式碼庫和財務披露等場景。通用檢索器往往難以處理專業術語和文件結構,而 Search Toolkit 的靈活性允許團隊定製檢索策略。

在智慧體(Agent)應用方面,Search Toolkit 為代理提供了高質量索引搜尋路徑,同時透過聯結器(Connectors)支援從 CRM、程式碼倉庫等源系統即時拉取資料。代理可以自主進行檢索決策,而底層搜尋基礎設施的質量直接影響每一步下游操作。

Search Toolkit 包含三個主要模組:攝取(Ingestion)模組負責文件解析、分塊和嵌入生成;檢索(Retrieval)模組提供 BM25 稀疏檢索、稠密向量檢索以及混合配置;評估(Evaluation)模組內建多種指標以衡量搜尋質量。所有模組共享相同的配置介面,方便替換和擴充套件。

該工具已在金融服務、製造業、公共部門及媒體娛樂等行業經過實戰檢驗。例如,航運公司 CMA CGM 結合 Search Toolkit 和 Voxtral 幫助記者檢測假新聞,該管道處理來自三個不同資料來源的音訊,並在 15 秒內返回告警。

要快速上手,使用者可以使用 Mistral AI 提供的 Starter App 模板,該模板預配置了 Vespa 索引、混合檢索及樣本資料。更多細節可參考官方文件。