Databricks為開源大語言模型提供提示緩存,大幅加速推理性能
Databricks將提示緩存功能擴展至開源模型,無需配置即可降低延遲、提升吞吐量。在生產環境中,GPT-OSS模型的吞吐量提升2.5倍,P50延遲降低3倍。該功能適用於批量推理、按token付費和預配置工作負載,支持GPT-OSS、Gemma 3、Llama 3等多個開源模型。
文章情報
要點
- Databricks為開源模型(如GPT-OSS、Gemma 3、Llama 3等)提供自動提示緩存,無需用户配置。
- 緩存命中時跳過預填充階段,顯著降低延遲並提高吞吐量。
- 生產環境中,GPT-OSS模型的吞吐量提升2.5倍,P50延遲降低3倍,緩存命中率僅30%。
為甚麼重要
這條新聞值得關注,因為Databricks為開源模型(如GPT-OSS、Gemma 3、Llama 3等)提供自動提示緩存,無需用户配置。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Databricks現已將其提示緩存(Prompt Caching)功能擴展至開源大語言模型,旨在加速推理過程並降低運營成本。此前,該功能僅支持專有模型(如GPT、Gemini、Claude),如今開源模型用户也能享受同樣的性能優化。
提示緩存的核心原理是複用重複的提示前綴。在LLM推理中,大量請求往往共享相同的系統提示或指令前綴,每次重新處理這些重複內容會浪費計算資源、增加延遲和成本。Databricks通過自動緩存KV緩存,在緩存命中時跳過預填充階段,從而顯著降低延遲並提高吞吐量。
該功能無需任何配置,自動運行於Databricks的Foundation Model APIs(FMAPIs)中,覆蓋批量推理、按token付費和預配置吞吐量工作負載。目前支持的開源模型包括:GPT-OSS 20B和120B、Gemma 3 12B、通過PEFT服務微調的Llama 3.1 8B、Llama 3.1 8B和Llama 3.3 70B。Databricks計劃未來將這一功能擴展到更多模型。
安全性方面,Databricks強調提示緩存僅限於易失性內存,從不持久化,且客户之間隔離,無需手動配置。緩存機制是隱式的,用户無需進行任何設置即可自動受益。
實際效果在GPT-OSS模型的批量推理生產管線中得到了驗證:提示緩存使單副本輸入token吞吐量提升2.5倍,P50延遲降低3倍,而緩存命中率僅為30%。這意味着即使只有部分請求命中緩存,也能帶來顯著的性能提升。
這一技術對於需要處理大量重複提示的場景尤其有價值,例如實時聊天、批量文檔處理或AI代理構建。通過複用域特定系統提示,用户可以在不犧牲令牌吞吐量的前提下提升模型質量。Databricks的研究還表明,自動提示優化可使開源模型在企業任務上超越前沿模型。
總之,Databricks的提示緩存功能使得開源LLM推理更快、更經濟、更安全,且無需額外配置。無論是實時聊天、批量處理大型文檔集,還是構建AI代理,提示緩存都能將良好的推理管線轉變為卓越的推理管線。