検索速度3倍:Instructed-Retriever-1による並列テスト時スケーリング
DatabricksはAgent Bricks Knowledge Assistantの大幅アップデートを発表。Instructed-Retriever-1モデルにより検索速度が3倍以上向上、回答生成時間が半減し、最初のトークンまでの時間は約2秒に。品質を犠牲にすることなく、並列テスト時スケーリングを実現。
Databricksは本日、Agent Bricks Knowledge Assistantの大幅アップデートを発表しました。このアップデートにより、回答生成時間が2倍、検索時間が3倍以上高速化され、最初のトークンまでの時間(TTFT)は約2秒に短縮されました。ユーザーは再設定することなく、品質を損なうことなく、すべてのユースケースで顕著に高速な回答を得られます。
この改善は、並列テスト時スケーリングのために構築された検索特化モデルInstructed-Retriever-1によって実現されました。従来のエージェント型検索では、エージェントが順次動作し、各結果を推論してから次のステップを決定しますが、本アプローチではこれを並列化します。Instructed-Retriever-1は、リコール向上のためのクエリ生成と精度向上のための再ランク付けの両方の検索段階を単一モデルで訓練され、並列実行により低レイテンシを維持します。
トレーニングでは、合成エンタープライズ検索環境を構築し、事実検索、要約、推奨、問題解決、意思決定支援など、Knowledge Assistantが処理する多様なタスクをカバーしました。モデルは2段階で訓練され、クエリ生成と検証型検索の両方の能力を獲得し、並列テスト時スケーリングを実用的にしています。
実際のワークロード評価では、Instructed-Retriever-1はクエリ生成品質指標(特異性、網羅性、関連性)で強力なパフォーマンスを示し、再ランク付けではClaude Sonnet 4.5と同等以上の結果(nDCG@10で81.0、ベースライン比+14.1%)を達成しました。また、Mixture-of-Expertsアーキテクチャ、FP8量子化、投機的デコードなどの最適化により、高品質を維持しながら効率的なサービスを実現しています。
システム全体では2つのテスト時スケーリングノブを提供します:クエリとフィルタの公式数を増やすと再現率が向上し、ピボット数を増やすと適合率が向上します。両方の段階が並列化可能であるため、低レイテンシを維持しながら、追加のテスト時計算をより高品質なコンテキストと交換できます。
サービスパフォーマンスでは、Instructed-Retriever-1はMixture-of-Expertsアーキテクチャを採用し、FP8量子化(NVIDIA ModelOptライブラリ使用)や投機的デコードを含む最適化を適用しています。評価では、FP8はBF16と比較して推論速度とスループットが向上し、品質の低下は見られませんでした。投機的デコードにより、クエリ生成と再ランク付けの組み合わせパスで30%以上の高速化が追加されました。
結論:このアップデートにより、並列テスト時スケーリングが本番検索スタックに導入されました。システムは並列クエリとフィルタ生成によって広く検索し、その後マルチピボット証拠比較によって正確に再ランク付けします。その結果、Knowledge Assistantはより良く、より速くなりました:検索時間は3倍以上減少、回答生成時間は2倍減少、TTFTは約2秒、オフライン評価設定でのエンドツーエンドレイテンシは一貫して10秒以下です。
初期ユーザーはすでに違いに気づいています。たとえば、ベイラー大学は新しい体験を「より簡潔で、キー情報を迅速に提示する『スナッピー』な感覚があり、ユーザー体験が顕著に向上した」と述べています。— Kyle Van Pelt、ベイラー大学入試管理プロセス・ガバナンス部長。
Instructed-Retriever-1はすでに全顧客への展開が開始されており、チームはより短い待ち時間で高品質なコンテキストを取得できます。