AI News HubLIVE
站內改寫1 分鐘閱讀

DeepSeek API 引入磁碟上下文快取,價格降低一個數量級

DeepSeek API 推出基於磁碟的上下文快取技術,可降低重複輸入的處理成本。快取命中時每百萬 token 僅收費 $0.014,最高節省 90% 費用。該功能自動啟用,無需修改程式碼。多輪對話、資料分析和長預設提示等場景收益最大,首個 token 延遲從 13 秒降至 500 毫秒。

DeepSeek API 於 2024 年 8 月 2 日宣佈推出磁碟上下文快取技術,旨在解決大語言模型 API 使用中重複輸入帶來的高成本問題。該技術透過將預期複用的上下文快取到分散式磁碟陣列上,當檢測到重複輸入時直接從快取讀取,避免了重新計算,從而降低延遲和成本。

在價格方面,快取命中時每百萬 token 收費僅為 0.014 美元,而未命中時仍按標準價格 0.14 美元計費。這意味著使用者最高可節省 90% 的 API 費用。此外,快取儲存本身免費,且無附加費用。該服務對所有使用者自動開啟,無需任何程式碼或介面變更。

快取命中要求輸入字首完全相同(從第 0 個 token 開始),僅中間部分匹配不會觸發快取。典型適用場景包括多輪對話(下一輪可命中上一輪的快取)、資料分析(相同字首的重複查詢)、擁有長預設提示的問答助手、大規模角色扮演對話、程式碼分析與除錯等。

為方便監控,API 響應中新增了兩個欄位:prompt_cache_hit_tokens(快取命中的 token 數)和 prompt_cache_miss_tokens(未命中的 token 數)。在延遲方面,對於 128K 長度的重複提示,首個 token 延遲從 13 秒降至僅 500 毫秒。

安全性方面,快取系統設計了嚴格的隔離策略,每個使用者的快取邏輯上不可見,資料隱私得到保護。未使用的快取條目會在數小時到數天內自動清除,不會永久保留。

DeepSeek 之所以能率先大規模部署磁碟快取,得益於其 V2 版本中引入的 MLA 架構,該架構顯著壓縮了上下文 KV 快取的大小,使其能夠經濟地儲存在低成本磁碟上。此外,DeepSeek API 每日可處理高達 1 萬億 token,且無併發或速率限制。快取系統以 64 token 為儲存單元,小於此長度的內容不會被快取,且不保證 100% 的命中率。