2026-05-23 04:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Databricks為開源大語言模型提供提示緩存，大幅加速推理性能

Databricks將提示緩存功能擴展至開源模型，無需配置即可降低延遲、提升吞吐量。在生產環境中，GPT-OSS模型的吞吐量提升2.5倍，P50延遲降低3倍。該功能適用於批量推理、按token付費和預配置工作負載，支持GPT-OSS、Gemma 3、Llama 3等多個開源模型。

來源Databricks Blog

Databricks現已將其提示緩存（Prompt Caching）功能擴展至開源大語言模型，旨在加速推理過程並降低運營成本。此前，該功能僅支持專有模型（如GPT、Gemini、Claude），如今開源模型用户也能享受同樣的性能優化。

提示緩存的核心原理是複用重複的提示前綴。在LLM推理中，大量請求往往共享相同的系統提示或指令前綴，每次重新處理這些重複內容會浪費計算資源、增加延遲和成本。Databricks通過自動緩存KV緩存，在緩存命中時跳過預填充階段，從而顯著降低延遲並提高吞吐量。

該功能無需任何配置，自動運行於Databricks的Foundation Model APIs（FMAPIs）中，覆蓋批量推理、按token付費和預配置吞吐量工作負載。目前支持的開源模型包括：GPT-OSS 20B和120B、Gemma 3 12B、通過PEFT服務微調的Llama 3.1 8B、Llama 3.1 8B和Llama 3.3 70B。Databricks計劃未來將這一功能擴展到更多模型。

安全性方面，Databricks強調提示緩存僅限於易失性內存，從不持久化，且客户之間隔離，無需手動配置。緩存機制是隱式的，用户無需進行任何設置即可自動受益。

實際效果在GPT-OSS模型的批量推理生產管線中得到了驗證：提示緩存使單副本輸入token吞吐量提升2.5倍，P50延遲降低3倍，而緩存命中率僅為30%。這意味着即使只有部分請求命中緩存，也能帶來顯著的性能提升。

這一技術對於需要處理大量重複提示的場景尤其有價值，例如實時聊天、批量文檔處理或AI代理構建。通過複用域特定系統提示，用户可以在不犧牲令牌吞吐量的前提下提升模型質量。Databricks的研究還表明，自動提示優化可使開源模型在企業任務上超越前沿模型。

總之，Databricks的提示緩存功能使得開源LLM推理更快、更經濟、更安全，且無需額外配置。無論是實時聊天、批量處理大型文檔集，還是構建AI代理，提示緩存都能將良好的推理管線轉變為卓越的推理管線。