2026-06-18 18:06 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Mistral AI 推出 Search Toolkit：構建生產級搜索的統一框架

Mistral AI 發佈了 Search Toolkit 公開預覽版，這是一個用於構建 AI 應用生產搜索管道的可組合框架。它整合了數據攝取、檢索和評估三個環節，提供統一接口，減少集成時間，提升搜索質量。支持多種檢索方式（BM25、稠密向量、混合檢索），並內置評估指標。適用於企業搜索、RAG 系統及領域特定檢索，已在多個行業驗證。

來源Mistral AI News

Mistral AI 今天宣佈推出 Search Toolkit 的公開預覽版，這是一個專為 AI 應用設計的可組合搜索框架，旨在簡化生產級搜索管道的構建過程。當前，許多團隊在搭建檢索系統時，仍需要花費大量時間整合各種獨立的工具，這些工具各有不同的接口和數據假設，導致集成工作繁重。Search Toolkit 將數據攝取、檢索和評估三大核心環節統一到一個共享接口的框架中，使團隊能夠將精力集中在提升搜索質量上，而非維護集成。該工具完全開源，可在雲端、本地或邊緣環境中運行。

在傳統架構中，團隊往往需要為每個數據源（如內部 wiki、工單系統、文檔庫、代碼倉庫等）構建單獨的攝取管道，每個管道都有不同的解析邏輯和分塊策略，最終導致孤立的索引或脆弱的自定義層。Search Toolkit 通過提供一致的處理和索引模式，使得團隊可以輕鬆添加新數據源，而無需重建整個管道。

對於 RAG（檢索增強生成）系統而言，當輸出結果不佳時，團隊很難快速判斷問題是出在檢索還是生成環節。Search Toolkit 內置了獨立的評估功能，支持召回率、精確率、MRR（平均倒數排名）和 NDCG（歸一化折損累計增益）等指標，允許團隊在自己的數據集上比較不同的檢索配置，從而隔離檢索質量與生成質量。

此外，Search Toolkit 還支持領域特定檢索，例如法律文件、醫療記錄、代碼庫和財務披露等場景。通用檢索器往往難以處理專業術語和文檔結構，而 Search Toolkit 的靈活性允許團隊定製檢索策略。

在智能體（Agent）應用方面，Search Toolkit 為代理提供了高質量索引搜索路徑，同時通過連接器（Connectors）支持從 CRM、代碼倉庫等源系統實時拉取數據。代理可以自主進行檢索決策，而底層搜索基礎設施的質量直接影響每一步下游操作。

Search Toolkit 包含三個主要模塊：攝取（Ingestion）模塊負責文檔解析、分塊和嵌入生成；檢索（Retrieval）模塊提供 BM25 稀疏檢索、稠密向量檢索以及混合配置；評估（Evaluation）模塊內置多種指標以衡量搜索質量。所有模塊共享相同的配置接口，方便替換和擴展。

該工具已在金融服務、製造業、公共部門及媒體娛樂等行業經過實戰檢驗。例如，航運公司 CMA CGM 結合 Search Toolkit 和 Voxtral 幫助記者檢測假新聞，該管道處理來自三個不同數據源的音頻，並在 15 秒內返回告警。

要快速上手，用户可以使用 Mistral AI 提供的 Starter App 模板，該模板預配置了 Vespa 索引、混合檢索及樣本數據。更多細節可參考官方文檔。