AI News HubLIVE
站内改写

Databricks為開源大語言模型提供提示快取,大幅加速推理效能

Databricks將提示快取功能擴充套件至開源模型,無需配置即可降低延遲、提升吞吐量。在生產環境中,GPT-OSS模型的吞吐量提升2.5倍,P50延遲降低3倍。該功能適用於批次推理、按token付費和預配置工作負載,支援GPT-OSS、Gemma 3、Llama 3等多個開源模型。

文章情報

工程師進階

要點

  • Databricks為開源模型(如GPT-OSS、Gemma 3、Llama 3等)提供自動提示快取,無需使用者配置。
  • 快取命中時跳過預填充階段,顯著降低延遲並提高吞吐量。
  • 生產環境中,GPT-OSS模型的吞吐量提升2.5倍,P50延遲降低3倍,快取命中率僅30%。

為什麼重要

這條新聞值得關注,因為Databricks為開源模型(如GPT-OSS、Gemma 3、Llama 3等)提供自動提示快取,無需使用者配置。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Databricks現已將其提示快取(Prompt Caching)功能擴充套件至開源大語言模型,旨在加速推理過程並降低運營成本。此前,該功能僅支援專有模型(如GPT、Gemini、Claude),如今開源模型使用者也能享受同樣的效能最佳化。

提示快取的核心原理是複用重複的提示字首。在LLM推理中,大量請求往往共享相同的系統提示或指令字首,每次重新處理這些重複內容會浪費計算資源、增加延遲和成本。Databricks透過自動快取KV快取,在快取命中時跳過預填充階段,從而顯著降低延遲並提高吞吐量。

該功能無需任何配置,自動執行於Databricks的Foundation Model APIs(FMAPIs)中,覆蓋批次推理、按token付費和預配置吞吐量工作負載。目前支援的開源模型包括:GPT-OSS 20B和120B、Gemma 3 12B、透過PEFT服務微調的Llama 3.1 8B、Llama 3.1 8B和Llama 3.3 70B。Databricks計劃未來將這一功能擴充套件到更多模型。

安全性方面,Databricks強調提示快取僅限於易失性記憶體,從不持久化,且客戶之間隔離,無需手動配置。快取機制是隱式的,使用者無需進行任何設定即可自動受益。

實際效果在GPT-OSS模型的批次推理生產管線中得到了驗證:提示快取使單副本輸入token吞吐量提升2.5倍,P50延遲降低3倍,而快取命中率僅為30%。這意味著即使只有部分請求命中快取,也能帶來顯著的效能提升。

這一技術對於需要處理大量重複提示的場景尤其有價值,例如即時聊天、批次文件處理或AI代理構建。透過複用域特定系統提示,使用者可以在不犧牲令牌吞吐量的前提下提升模型質量。Databricks的研究還表明,自動提示最佳化可使開源模型在企業任務上超越前沿模型。

總之,Databricks的提示快取功能使得開源LLM推理更快、更經濟、更安全,且無需額外配置。無論是即時聊天、批次處理大型文件集,還是構建AI代理,提示快取都能將良好的推理管線轉變為卓越的推理管線。