2026-05-23 04:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Databricks為開源大語言模型提供提示快取，大幅加速推理效能

Databricks將提示快取功能擴充套件至開源模型，無需配置即可降低延遲、提升吞吐量。在生產環境中，GPT-OSS模型的吞吐量提升2.5倍，P50延遲降低3倍。該功能適用於批次推理、按token付費和預配置工作負載，支援GPT-OSS、Gemma 3、Llama 3等多個開源模型。

來源Databricks Blog

Databricks現已將其提示快取（Prompt Caching）功能擴充套件至開源大語言模型，旨在加速推理過程並降低運營成本。此前，該功能僅支援專有模型（如GPT、Gemini、Claude），如今開源模型使用者也能享受同樣的效能最佳化。

提示快取的核心原理是複用重複的提示字首。在LLM推理中，大量請求往往共享相同的系統提示或指令字首，每次重新處理這些重複內容會浪費計算資源、增加延遲和成本。Databricks透過自動快取KV快取，在快取命中時跳過預填充階段，從而顯著降低延遲並提高吞吐量。

該功能無需任何配置，自動執行於Databricks的Foundation Model APIs（FMAPIs）中，覆蓋批次推理、按token付費和預配置吞吐量工作負載。目前支援的開源模型包括：GPT-OSS 20B和120B、Gemma 3 12B、透過PEFT服務微調的Llama 3.1 8B、Llama 3.1 8B和Llama 3.3 70B。Databricks計劃未來將這一功能擴充套件到更多模型。

安全性方面，Databricks強調提示快取僅限於易失性記憶體，從不持久化，且客戶之間隔離，無需手動配置。快取機制是隱式的，使用者無需進行任何設定即可自動受益。

實際效果在GPT-OSS模型的批次推理生產管線中得到了驗證：提示快取使單副本輸入token吞吐量提升2.5倍，P50延遲降低3倍，而快取命中率僅為30%。這意味著即使只有部分請求命中快取，也能帶來顯著的效能提升。

這一技術對於需要處理大量重複提示的場景尤其有價值，例如即時聊天、批次文件處理或AI代理構建。透過複用域特定系統提示，使用者可以在不犧牲令牌吞吐量的前提下提升模型質量。Databricks的研究還表明，自動提示最佳化可使開源模型在企業任務上超越前沿模型。

總之，Databricks的提示快取功能使得開源LLM推理更快、更經濟、更安全，且無需額外配置。無論是即時聊天、批次處理大型文件集，還是構建AI代理，提示快取都能將良好的推理管線轉變為卓越的推理管線。