2026-05-23 04:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Databricks为开源大语言模型提供提示缓存，大幅加速推理性能

Databricks将提示缓存功能扩展至开源模型，无需配置即可降低延迟、提升吞吐量。在生产环境中，GPT-OSS模型的吞吐量提升2.5倍，P50延迟降低3倍。该功能适用于批量推理、按token付费和预配置工作负载，支持GPT-OSS、Gemma 3、Llama 3等多个开源模型。

来源Databricks Blog

Databricks现已将其提示缓存（Prompt Caching）功能扩展至开源大语言模型，旨在加速推理过程并降低运营成本。此前，该功能仅支持专有模型（如GPT、Gemini、Claude），如今开源模型用户也能享受同样的性能优化。

提示缓存的核心原理是复用重复的提示前缀。在LLM推理中，大量请求往往共享相同的系统提示或指令前缀，每次重新处理这些重复内容会浪费计算资源、增加延迟和成本。Databricks通过自动缓存KV缓存，在缓存命中时跳过预填充阶段，从而显著降低延迟并提高吞吐量。

该功能无需任何配置，自动运行于Databricks的Foundation Model APIs（FMAPIs）中，覆盖批量推理、按token付费和预配置吞吐量工作负载。目前支持的开源模型包括：GPT-OSS 20B和120B、Gemma 3 12B、通过PEFT服务微调的Llama 3.1 8B、Llama 3.1 8B和Llama 3.3 70B。Databricks计划未来将这一功能扩展到更多模型。

安全性方面，Databricks强调提示缓存仅限于易失性内存，从不持久化，且客户之间隔离，无需手动配置。缓存机制是隐式的，用户无需进行任何设置即可自动受益。

实际效果在GPT-OSS模型的批量推理生产管线中得到了验证：提示缓存使单副本输入token吞吐量提升2.5倍，P50延迟降低3倍，而缓存命中率仅为30%。这意味着即使只有部分请求命中缓存，也能带来显著的性能提升。

这一技术对于需要处理大量重复提示的场景尤其有价值，例如实时聊天、批量文档处理或AI代理构建。通过复用域特定系统提示，用户可以在不牺牲令牌吞吐量的前提下提升模型质量。Databricks的研究还表明，自动提示优化可使开源模型在企业任务上超越前沿模型。

总之，Databricks的提示缓存功能使得开源LLM推理更快、更经济、更安全，且无需额外配置。无论是实时聊天、批量处理大型文档集，还是构建AI代理，提示缓存都能将良好的推理管线转变为卓越的推理管线。