2026-05-06 07:27 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

DeepSeek API 引入磁碟上下文快取，價格降低一個數量級

DeepSeek API 推出基於磁碟的上下文快取技術，可降低重複輸入的處理成本。快取命中時每百萬 token 僅收費 $0.014，最高節省 90% 費用。該功能自動啟用，無需修改程式碼。多輪對話、資料分析和長預設提示等場景收益最大，首個 token 延遲從 13 秒降至 500 毫秒。

來源DeepSeek News

DeepSeek API 於 2024 年 8 月 2 日宣佈推出磁碟上下文快取技術，旨在解決大語言模型 API 使用中重複輸入帶來的高成本問題。該技術透過將預期複用的上下文快取到分散式磁碟陣列上，當檢測到重複輸入時直接從快取讀取，避免了重新計算，從而降低延遲和成本。

在價格方面，快取命中時每百萬 token 收費僅為 0.014 美元，而未命中時仍按標準價格 0.14 美元計費。這意味著使用者最高可節省 90% 的 API 費用。此外，快取儲存本身免費，且無附加費用。該服務對所有使用者自動開啟，無需任何程式碼或介面變更。

快取命中要求輸入字首完全相同（從第 0 個 token 開始），僅中間部分匹配不會觸發快取。典型適用場景包括多輪對話（下一輪可命中上一輪的快取）、資料分析（相同字首的重複查詢）、擁有長預設提示的問答助手、大規模角色扮演對話、程式碼分析與除錯等。

為方便監控，API 響應中新增了兩個欄位：prompt_cache_hit_tokens（快取命中的 token 數）和 prompt_cache_miss_tokens（未命中的 token 數）。在延遲方面，對於 128K 長度的重複提示，首個 token 延遲從 13 秒降至僅 500 毫秒。

安全性方面，快取系統設計了嚴格的隔離策略，每個使用者的快取邏輯上不可見，資料隱私得到保護。未使用的快取條目會在數小時到數天內自動清除，不會永久保留。

DeepSeek 之所以能率先大規模部署磁碟快取，得益於其 V2 版本中引入的 MLA 架構，該架構顯著壓縮了上下文 KV 快取的大小，使其能夠經濟地儲存在低成本磁碟上。此外，DeepSeek API 每日可處理高達 1 萬億 token，且無併發或速率限制。快取系統以 64 token 為儲存單元，小於此長度的內容不會被快取，且不保證 100% 的命中率。