AI News HubLIVE
サイト内リライト2 分で読了

Mistral AI、Search Toolkitを公開プレビュー:統一フレームワークでプロダクション検索を構築

Mistral AIは、AIアプリケーション向けのプロダクション検索パイプラインを構築するための構成可能なフレームワーク「Search Toolkit」の公開プレビューを発表しました。インジェスト、検索、評価を統一されたインターフェースで統合し、統合作業の時間を削減し、検索品質を向上させます。BM25、密ベクトル、ハイブリッド検索をサポートし、評価指標を内蔵。企業検索、RAG、ドメイン固有検索に適用可能で、各業界で実証済みです。

Mistral AIは本日、Search Toolkitの公開プレビューをリリースしました。これは、AIアプリケーションのためのプロダクション検索パイプラインを構築するための構成可能なフレームワークです。現在、多くのチームが検索インフラの構築に多大な時間を費やしており、それぞれ異なるインターフェースとデータの前提を持つ個別のツールを統合しています。Search Toolkitは、インジェスト、検索、評価の3つを共通のインターフェースで統合し、チームが統合のメンテナンスではなく検索品質の向上に時間を費やせるようにします。このツールはオープンソースであり、クラウド、オンプレミス、エッジのどこでも実行できます。

従来のアーキテクチャでは、チームはデータソースごとに別々のインジェストパイプラインを構築する必要があり、それぞれに異なる解析ロジックとチャンキング戦略がありました。その結果、孤立したインデックスや脆弱なカスタムレイヤーが生じ、Search Toolkitはこれを解決します。一貫した処理とインデックスパターンを提供することで、パイプラインを再構築せずに新しいソースを追加できます。

RAG(検索拡張生成)システムでは、結果が悪い場合、問題が検索にあるのか生成にあるのかを判断するのが難しいことがよくあります。Search Toolkitは、再現率、適合率、MRR、NDCGなどの指標を備えた独立した評価機能を内蔵しており、チームは自社のデータセットで異なる検索構成を比較し、検索品質と生成品質を切り離して評価できます。

さらに、Search Toolkitはドメイン固有の検索もサポートしており、法文書、医療記録、コードベース、財務開示などに適しています。汎用の検索エンジンは専門用語や文書構造に苦労することが多いですが、Search Toolkitの柔軟性によりチームは検索戦略をカスタマイズできます。

エージェントアプリケーションにおいて、Search Toolkitはエージェントに高品質なインデックス検索パスを提供し、コネクタを介してCRMやコードリポジトリなどのソースシステムからライブデータをプルすることも可能です。エージェントは自律的に検索判断を行い、その下にある検索インフラの品質がダウンストリームの各ステップに直接影響します。

Search Toolkitの主要モジュール:インジェスト(ドキュメント解析、チャンキング、埋め込み生成を処理)、検索(BM25スパース検索、密ベクトル検索、ハイブリッド構成を提供)、評価(再現率、適合率、MRR、NDCGなどの指標で品質を測定)。すべてのモジュールは共通の構成インターフェースを共有し、交換や拡張が容易です。

このツールは金融サービス、製造業、公共部門、メディア・エンターテイメントなどの業界で実戦テスト済みです。例えば、CMA CGMはSearch ToolkitをVoxtralと併用して、ジャーナリストが偽ニュースを検出するのを支援しています。このパイプラインは3つの異なるデータソースからのオーディオを処理し、エンドツーエンドで15秒以内にアラートを返します。

クイックスタートには、スターターアプリテンプレートが用意されており、Vespaインデックス、ハイブリッド検索、サンプルデータがプリセットされています。詳細は公式ドキュメントを参照してください。