Mistral AI 推出 Search Toolkit:构建生产级搜索的统一框架
Mistral AI 发布了 Search Toolkit 公开预览版,这是一个用于构建 AI 应用生产搜索管道的可组合框架。它整合了数据摄取、检索和评估三个环节,提供统一接口,减少集成时间,提升搜索质量。支持多种检索方式(BM25、稠密向量、混合检索),并内置评估指标。适用于企业搜索、RAG 系统及领域特定检索,已在多个行业验证。
Mistral AI 今天宣布推出 Search Toolkit 的公开预览版,这是一个专为 AI 应用设计的可组合搜索框架,旨在简化生产级搜索管道的构建过程。当前,许多团队在搭建检索系统时,仍需要花费大量时间整合各种独立的工具,这些工具各有不同的接口和数据假设,导致集成工作繁重。Search Toolkit 将数据摄取、检索和评估三大核心环节统一到一个共享接口的框架中,使团队能够将精力集中在提升搜索质量上,而非维护集成。该工具完全开源,可在云端、本地或边缘环境中运行。
在传统架构中,团队往往需要为每个数据源(如内部 wiki、工单系统、文档库、代码仓库等)构建单独的摄取管道,每个管道都有不同的解析逻辑和分块策略,最终导致孤立的索引或脆弱的自定义层。Search Toolkit 通过提供一致的处理和索引模式,使得团队可以轻松添加新数据源,而无需重建整个管道。
对于 RAG(检索增强生成)系统而言,当输出结果不佳时,团队很难快速判断问题是出在检索还是生成环节。Search Toolkit 内置了独立的评估功能,支持召回率、精确率、MRR(平均倒数排名)和 NDCG(归一化折损累计增益)等指标,允许团队在自己的数据集上比较不同的检索配置,从而隔离检索质量与生成质量。
此外,Search Toolkit 还支持领域特定检索,例如法律文件、医疗记录、代码库和财务披露等场景。通用检索器往往难以处理专业术语和文档结构,而 Search Toolkit 的灵活性允许团队定制检索策略。
在智能体(Agent)应用方面,Search Toolkit 为代理提供了高质量索引搜索路径,同时通过连接器(Connectors)支持从 CRM、代码仓库等源系统实时拉取数据。代理可以自主进行检索决策,而底层搜索基础设施的质量直接影响每一步下游操作。
Search Toolkit 包含三个主要模块:摄取(Ingestion)模块负责文档解析、分块和嵌入生成;检索(Retrieval)模块提供 BM25 稀疏检索、稠密向量检索以及混合配置;评估(Evaluation)模块内置多种指标以衡量搜索质量。所有模块共享相同的配置接口,方便替换和扩展。
该工具已在金融服务、制造业、公共部门及媒体娱乐等行业经过实战检验。例如,航运公司 CMA CGM 结合 Search Toolkit 和 Voxtral 帮助记者检测假新闻,该管道处理来自三个不同数据源的音频,并在 15 秒内返回告警。
要快速上手,用户可以使用 Mistral AI 提供的 Starter App 模板,该模板预配置了 Vespa 索引、混合检索及样本数据。更多细节可参考官方文档。