DeepSeek API 引入磁盤上下文緩存,價格降低一個數量級
DeepSeek API 推出基於磁盤的上下文緩存技術,可降低重複輸入的處理成本。緩存命中時每百萬 token 僅收費 $0.014,最高節省 90% 費用。該功能自動啓用,無需修改代碼。多輪對話、數據分析和長預設提示等場景收益最大,首個 token 延遲從 13 秒降至 500 毫秒。
DeepSeek API 於 2024 年 8 月 2 日宣佈推出磁盤上下文緩存技術,旨在解決大語言模型 API 使用中重複輸入帶來的高成本問題。該技術通過將預期複用的上下文緩存到分佈式磁盤陣列上,當檢測到重複輸入時直接從緩存讀取,避免了重新計算,從而降低延遲和成本。
在價格方面,緩存命中時每百萬 token 收費僅為 0.014 美元,而未命中時仍按標準價格 0.14 美元計費。這意味着用户最高可節省 90% 的 API 費用。此外,緩存存儲本身免費,且無附加費用。該服務對所有用户自動開啓,無需任何代碼或接口變更。
緩存命中要求輸入前綴完全相同(從第 0 個 token 開始),僅中間部分匹配不會觸發緩存。典型適用場景包括多輪對話(下一輪可命中上一輪的緩存)、數據分析(相同前綴的重複查詢)、擁有長預設提示的問答助手、大規模角色扮演對話、代碼分析與調試等。
為方便監控,API 響應中新增了兩個字段:prompt_cache_hit_tokens(緩存命中的 token 數)和 prompt_cache_miss_tokens(未命中的 token 數)。在延遲方面,對於 128K 長度的重複提示,首個 token 延遲從 13 秒降至僅 500 毫秒。
安全性方面,緩存系統設計了嚴格的隔離策略,每個用户的緩存邏輯上不可見,數據隱私得到保護。未使用的緩存條目會在數小時到數天內自動清除,不會永久保留。
DeepSeek 之所以能率先大規模部署磁盤緩存,得益於其 V2 版本中引入的 MLA 架構,該架構顯著壓縮了上下文 KV 緩存的大小,使其能夠經濟地存儲在低成本磁盤上。此外,DeepSeek API 每日可處理高達 1 萬億 token,且無併發或速率限制。緩存系統以 64 token 為存儲單元,小於此長度的內容不會被緩存,且不保證 100% 的命中率。