Databricks、オープンソースモデル向けプロンプトキャッシングでLLM推論を高速化
Databricksは、オープンソースの大規模言語モデル(LLM)向けに自動プロンプトキャッシングをサポートしました。設定不要でレイテンシを低減し、スループットを向上させます。本番環境では、GPT-OSSモデルでスループットが2.5倍、P50レイテンシが3倍改善されました。この機能はバッチ推論、ペイ・パー・トークン、プロビジョニドワークロードで利用可能です。
記事インテリジェンス
要点
- Databricksがオープンソースモデル(GPT-OSS、Gemma 3、Llama 3など)向けに自動プロンプトキャッシングを提供。設定不要。
- キャッシュヒット時はプリフィル段階をスキップし、レイテンシを低減しスループットを向上。
- 本番環境のGPT-OSSでスループット2.5倍、P50レイテンシ3倍改善、キャッシュヒット率はわずか30%。
重要な理由
このニュースが重要なのは、Databricksがオープンソースモデル(GPT-OSS、Gemma 3、Llama 3など)向けに自動プロンプトキャッシングを提供。設定不要ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
Databricksは、大規模言語モデル(LLM)の推論を高速化するため、プロンプトキャッシング機能をオープンソースモデルにも拡張しました。この機能は従来、専有モデル(GPT、Gemini、Claudeなど)にのみ提供されていましたが、今回からオープンウェイトモデルでも利用可能になります。
プロンプトキャッシングの基本原理は、繰り返し出現するプロンプトプレフィックスを再利用することです。LLM推論では、多数のリクエストが同一のシステムプロンプトや命令プロンプトを共有することが多く、毎回同一のプレフィックスを再処理することは計算リソースの無駄であり、レイテンシとコストを増大させます。DatabricksはKVキャッシュを自動的にキャッシュし、キャッシュヒット時にプリフィル段階をスキップすることで、レイテンシを低減しスループットを向上させます。
この機能は設定不要で、DatabricksのFoundation Model APIs(FMAPIs)を通じて、バッチ推論、ペイ・パー・トークン、プロビジョニドスループットワークロードで自動的に動作します。対応するオープンソースモデルは、GPT-OSS 20Bおよび120B、Gemma 3 12B、ファインチューニング済みLlama 3.1 8B(PEFTサービング経由)、Llama 3.1 8Bおよび3.3 70Bです。今後さらに多くのモデルに拡大予定です。
セキュリティ面では、プロンプトキャッシュはアイソレートされ、揮発性メモリのみに保持され、永続化されることはありません。顧客による設定は一切不要で、システムが自動的にキャッシュを管理します。
実際の効果:GPT-OSSモデルの本番バッチ推論パイプラインでは、キャッシュ導入によりレプリカあたりの入力トークンスループットが2.5倍、P50レイテンシが3倍改善されました。キャッシュヒット率はわずか30%でしたが、それでも大幅なパフォーマンス向上を実現しました。
プロンプトキャッシングは、リアルタイムチャット、大規模文書のバッチ処理、AIエージェント構築など、繰り返しプロンプトが発生するあらゆるシナリオで有効です。ドメイン固有のシステムプロンプトを共有することで、トークンスループットを犠牲にすることなくモデルの品質を向上させることができます。Databricksの研究では、自動プロンプト最適化により、オープンソースモデルがエンタープライズタスクでフロンティアモデルを凌駕できることも示されています。
まとめると、Databricksのプロンプトキャッシングは、同一プロンプトのKVキャッシュを自動的に再利用することで、オープンソースLLMをより高速かつ低コストで、高いセキュリティを維持しながら実行することを可能にします。リアルタイムチャット、大規模文書のバッチ処理、AIエージェントの構築など、あらゆる推論ワークロードにおいて、プロンプトキャッシングは優れた推論パイプラインをさらに強力なものに変えます。