AI News HubLIVE
站内改写

Databricks为开源大语言模型提供提示缓存,大幅加速推理性能

Databricks将提示缓存功能扩展至开源模型,无需配置即可降低延迟、提升吞吐量。在生产环境中,GPT-OSS模型的吞吐量提升2.5倍,P50延迟降低3倍。该功能适用于批量推理、按token付费和预配置工作负载,支持GPT-OSS、Gemma 3、Llama 3等多个开源模型。

文章情报

工程师进阶

要点

  • Databricks为开源模型(如GPT-OSS、Gemma 3、Llama 3等)提供自动提示缓存,无需用户配置。
  • 缓存命中时跳过预填充阶段,显著降低延迟并提高吞吐量。
  • 生产环境中,GPT-OSS模型的吞吐量提升2.5倍,P50延迟降低3倍,缓存命中率仅30%。

为什么重要

这条新闻值得关注,因为Databricks为开源模型(如GPT-OSS、Gemma 3、Llama 3等)提供自动提示缓存,无需用户配置。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Databricks现已将其提示缓存(Prompt Caching)功能扩展至开源大语言模型,旨在加速推理过程并降低运营成本。此前,该功能仅支持专有模型(如GPT、Gemini、Claude),如今开源模型用户也能享受同样的性能优化。

提示缓存的核心原理是复用重复的提示前缀。在LLM推理中,大量请求往往共享相同的系统提示或指令前缀,每次重新处理这些重复内容会浪费计算资源、增加延迟和成本。Databricks通过自动缓存KV缓存,在缓存命中时跳过预填充阶段,从而显著降低延迟并提高吞吐量。

该功能无需任何配置,自动运行于Databricks的Foundation Model APIs(FMAPIs)中,覆盖批量推理、按token付费和预配置吞吐量工作负载。目前支持的开源模型包括:GPT-OSS 20B和120B、Gemma 3 12B、通过PEFT服务微调的Llama 3.1 8B、Llama 3.1 8B和Llama 3.3 70B。Databricks计划未来将这一功能扩展到更多模型。

安全性方面,Databricks强调提示缓存仅限于易失性内存,从不持久化,且客户之间隔离,无需手动配置。缓存机制是隐式的,用户无需进行任何设置即可自动受益。

实际效果在GPT-OSS模型的批量推理生产管线中得到了验证:提示缓存使单副本输入token吞吐量提升2.5倍,P50延迟降低3倍,而缓存命中率仅为30%。这意味着即使只有部分请求命中缓存,也能带来显著的性能提升。

这一技术对于需要处理大量重复提示的场景尤其有价值,例如实时聊天、批量文档处理或AI代理构建。通过复用域特定系统提示,用户可以在不牺牲令牌吞吐量的前提下提升模型质量。Databricks的研究还表明,自动提示优化可使开源模型在企业任务上超越前沿模型。

总之,Databricks的提示缓存功能使得开源LLM推理更快、更经济、更安全,且无需额外配置。无论是实时聊天、批量处理大型文档集,还是构建AI代理,提示缓存都能将良好的推理管线转变为卓越的推理管线。