2026-05-06 07:27 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

DeepSeek API 引入磁盤上下文緩存，價格降低一個數量級

DeepSeek API 推出基於磁盤的上下文緩存技術，可降低重複輸入的處理成本。緩存命中時每百萬 token 僅收費 $0.014，最高節省 90% 費用。該功能自動啓用，無需修改代碼。多輪對話、數據分析和長預設提示等場景收益最大，首個 token 延遲從 13 秒降至 500 毫秒。

來源DeepSeek News

DeepSeek API 於 2024 年 8 月 2 日宣佈推出磁盤上下文緩存技術，旨在解決大語言模型 API 使用中重複輸入帶來的高成本問題。該技術通過將預期複用的上下文緩存到分佈式磁盤陣列上，當檢測到重複輸入時直接從緩存讀取，避免了重新計算，從而降低延遲和成本。

在價格方面，緩存命中時每百萬 token 收費僅為 0.014 美元，而未命中時仍按標準價格 0.14 美元計費。這意味着用户最高可節省 90% 的 API 費用。此外，緩存存儲本身免費，且無附加費用。該服務對所有用户自動開啓，無需任何代碼或接口變更。

緩存命中要求輸入前綴完全相同（從第 0 個 token 開始），僅中間部分匹配不會觸發緩存。典型適用場景包括多輪對話（下一輪可命中上一輪的緩存）、數據分析（相同前綴的重複查詢）、擁有長預設提示的問答助手、大規模角色扮演對話、代碼分析與調試等。

為方便監控，API 響應中新增了兩個字段：prompt_cache_hit_tokens（緩存命中的 token 數）和 prompt_cache_miss_tokens（未命中的 token 數）。在延遲方面，對於 128K 長度的重複提示，首個 token 延遲從 13 秒降至僅 500 毫秒。

安全性方面，緩存系統設計了嚴格的隔離策略，每個用户的緩存邏輯上不可見，數據隱私得到保護。未使用的緩存條目會在數小時到數天內自動清除，不會永久保留。

DeepSeek 之所以能率先大規模部署磁盤緩存，得益於其 V2 版本中引入的 MLA 架構，該架構顯著壓縮了上下文 KV 緩存的大小，使其能夠經濟地存儲在低成本磁盤上。此外，DeepSeek API 每日可處理高達 1 萬億 token，且無併發或速率限制。緩存系統以 64 token 為存儲單元，小於此長度的內容不會被緩存，且不保證 100% 的命中率。