AI News HubLIVE
站内改写1 分钟阅读

DeepSeek API 引入磁盘上下文缓存,价格降低一个数量级

DeepSeek API 推出基于磁盘的上下文缓存技术,可降低重复输入的处理成本。缓存命中时每百万 token 仅收费 $0.014,最高节省 90% 费用。该功能自动启用,无需修改代码。多轮对话、数据分析和长预设提示等场景收益最大,首个 token 延迟从 13 秒降至 500 毫秒。

DeepSeek API 于 2024 年 8 月 2 日宣布推出磁盘上下文缓存技术,旨在解决大语言模型 API 使用中重复输入带来的高成本问题。该技术通过将预期复用的上下文缓存到分布式磁盘阵列上,当检测到重复输入时直接从缓存读取,避免了重新计算,从而降低延迟和成本。

在价格方面,缓存命中时每百万 token 收费仅为 0.014 美元,而未命中时仍按标准价格 0.14 美元计费。这意味着用户最高可节省 90% 的 API 费用。此外,缓存存储本身免费,且无附加费用。该服务对所有用户自动开启,无需任何代码或接口变更。

缓存命中要求输入前缀完全相同(从第 0 个 token 开始),仅中间部分匹配不会触发缓存。典型适用场景包括多轮对话(下一轮可命中上一轮的缓存)、数据分析(相同前缀的重复查询)、拥有长预设提示的问答助手、大规模角色扮演对话、代码分析与调试等。

为方便监控,API 响应中新增了两个字段:prompt_cache_hit_tokens(缓存命中的 token 数)和 prompt_cache_miss_tokens(未命中的 token 数)。在延迟方面,对于 128K 长度的重复提示,首个 token 延迟从 13 秒降至仅 500 毫秒。

安全性方面,缓存系统设计了严格的隔离策略,每个用户的缓存逻辑上不可见,数据隐私得到保护。未使用的缓存条目会在数小时到数天内自动清除,不会永久保留。

DeepSeek 之所以能率先大规模部署磁盘缓存,得益于其 V2 版本中引入的 MLA 架构,该架构显著压缩了上下文 KV 缓存的大小,使其能够经济地存储在低成本磁盘上。此外,DeepSeek API 每日可处理高达 1 万亿 token,且无并发或速率限制。缓存系统以 64 token 为存储单元,小于此长度的内容不会被缓存,且不保证 100% 的命中率。