2026-05-06 07:27 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

DeepSeek API 引入磁盘上下文缓存，价格降低一个数量级

DeepSeek API 推出基于磁盘的上下文缓存技术，可降低重复输入的处理成本。缓存命中时每百万 token 仅收费 $0.014，最高节省 90% 费用。该功能自动启用，无需修改代码。多轮对话、数据分析和长预设提示等场景收益最大，首个 token 延迟从 13 秒降至 500 毫秒。

来源DeepSeek News

DeepSeek API 于 2024 年 8 月 2 日宣布推出磁盘上下文缓存技术，旨在解决大语言模型 API 使用中重复输入带来的高成本问题。该技术通过将预期复用的上下文缓存到分布式磁盘阵列上，当检测到重复输入时直接从缓存读取，避免了重新计算，从而降低延迟和成本。

在价格方面，缓存命中时每百万 token 收费仅为 0.014 美元，而未命中时仍按标准价格 0.14 美元计费。这意味着用户最高可节省 90% 的 API 费用。此外，缓存存储本身免费，且无附加费用。该服务对所有用户自动开启，无需任何代码或接口变更。

缓存命中要求输入前缀完全相同（从第 0 个 token 开始），仅中间部分匹配不会触发缓存。典型适用场景包括多轮对话（下一轮可命中上一轮的缓存）、数据分析（相同前缀的重复查询）、拥有长预设提示的问答助手、大规模角色扮演对话、代码分析与调试等。

为方便监控，API 响应中新增了两个字段：prompt_cache_hit_tokens（缓存命中的 token 数）和 prompt_cache_miss_tokens（未命中的 token 数）。在延迟方面，对于 128K 长度的重复提示，首个 token 延迟从 13 秒降至仅 500 毫秒。

安全性方面，缓存系统设计了严格的隔离策略，每个用户的缓存逻辑上不可见，数据隐私得到保护。未使用的缓存条目会在数小时到数天内自动清除，不会永久保留。

DeepSeek 之所以能率先大规模部署磁盘缓存，得益于其 V2 版本中引入的 MLA 架构，该架构显著压缩了上下文 KV 缓存的大小，使其能够经济地存储在低成本磁盘上。此外，DeepSeek API 每日可处理高达 1 万亿 token，且无并发或速率限制。缓存系统以 64 token 为存储单元，小于此长度的内容不会被缓存，且不保证 100% 的命中率。