2026-06-18 18:06 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Mistral AI 推出 Search Toolkit：構建生產級搜尋的統一框架

Mistral AI 釋出了 Search Toolkit 公開預覽版，這是一個用於構建 AI 應用生產搜尋管道的可組合框架。它整合了資料攝取、檢索和評估三個環節，提供統一介面，減少整合時間，提升搜尋質量。支援多種檢索方式（BM25、稠密向量、混合檢索），並內建評估指標。適用於企業搜尋、RAG 系統及領域特定檢索，已在多個行業驗證。

來源Mistral AI News

Mistral AI 今天宣佈推出 Search Toolkit 的公開預覽版，這是一個專為 AI 應用設計的可組合搜尋框架，旨在簡化生產級搜尋管道的構建過程。當前，許多團隊在搭建檢索系統時，仍需要花費大量時間整合各種獨立的工具，這些工具各有不同的介面和資料假設，導致整合工作繁重。Search Toolkit 將資料攝取、檢索和評估三大核心環節統一到一個共享介面的框架中，使團隊能夠將精力集中在提升搜尋質量上，而非維護整合。該工具完全開源，可在雲端、本地或邊緣環境中執行。

在傳統架構中，團隊往往需要為每個資料來源（如內部 wiki、工單系統、文件庫、程式碼倉庫等）構建單獨的攝取管道，每個管道都有不同的解析邏輯和分塊策略，最終導致孤立的索引或脆弱的自定義層。Search Toolkit 透過提供一致的處理和索引模式，使得團隊可以輕鬆新增新資料來源，而無需重建整個管道。

對於 RAG（檢索增強生成）系統而言，當輸出結果不佳時，團隊很難快速判斷問題是出在檢索還是生成環節。Search Toolkit 內建了獨立的評估功能，支援召回率、精確率、MRR（平均倒數排名）和 NDCG（歸一化折損累計增益）等指標，允許團隊在自己的資料集上比較不同的檢索配置，從而隔離檢索質量與生成質量。

此外，Search Toolkit 還支援領域特定檢索，例如法律檔案、醫療記錄、程式碼庫和財務披露等場景。通用檢索器往往難以處理專業術語和文件結構，而 Search Toolkit 的靈活性允許團隊定製檢索策略。

在智慧體（Agent）應用方面，Search Toolkit 為代理提供了高質量索引搜尋路徑，同時透過聯結器（Connectors）支援從 CRM、程式碼倉庫等源系統即時拉取資料。代理可以自主進行檢索決策，而底層搜尋基礎設施的質量直接影響每一步下游操作。

Search Toolkit 包含三個主要模組：攝取（Ingestion）模組負責文件解析、分塊和嵌入生成；檢索（Retrieval）模組提供 BM25 稀疏檢索、稠密向量檢索以及混合配置；評估（Evaluation）模組內建多種指標以衡量搜尋質量。所有模組共享相同的配置介面，方便替換和擴充套件。

該工具已在金融服務、製造業、公共部門及媒體娛樂等行業經過實戰檢驗。例如，航運公司 CMA CGM 結合 Search Toolkit 和 Voxtral 幫助記者檢測假新聞，該管道處理來自三個不同資料來源的音訊，並在 15 秒內返回告警。

要快速上手，使用者可以使用 Mistral AI 提供的 Starter App 模板，該模板預配置了 Vespa 索引、混合檢索及樣本資料。更多細節可參考官方文件。