DeepSeek API、ディスク上のコンテキストキャッシュを導入、価格を一桁削減
DeepSeek API がディスクベースのコンテキストキャッシュ機能を開始。繰り返し入力のコストを大幅に削減し、キャッシュヒット時は100万トークンあたり0.014ドル。最大90%のコスト削減が可能。マルチターン会話やデータ分析などのシーンで効果的。最初のトークンレイテンシが13秒から500ミリ秒に短縮。
DeepSeek API は2024年8月2日、ディスク上のコンテキストキャッシュ機能を発表しました。この技術は、大規模言語モデルのAPI利用において頻繁に発生する繰り返し入力に対応するため、再利用が見込まれるコンテキストを分散ディスクアレイにキャッシュし、重複入力を検出するとキャッシュから読み出すことで、再計算を回避し、レイテンシとコストを削減します。
価格面では、キャッシュヒット時は100万トークンあたり0.014ドル、ミス時は標準の0.14ドルが適用され、最大90%のコスト削減が可能です。キャッシュストレージは無料で、追加料金は発生しません。この機能は全ユーザーに対して自動で有効化されており、コードやインターフェースの変更は不要です。
キャッシュヒットの条件は、入力の先頭(0番目のトークンから)が完全に一致することです。中間部分のみの一致ではヒットしません。典型的な使用シナリオとして、マルチターン会話(前のターンのキャッシュを次のターンで利用)、データ分析(同じプレフィックスでの繰り返しクエリ)、長いプリセットプロンプトを使ったQ&Aアシスタント、大規模なロールプレイ、コード分析・デバッグなどが挙げられます。
モニタリングのために、APIレスポンスにprompt_cache_hit_tokens(キャッシュヒットしたトークン数)とprompt_cache_miss_tokens(ミスしたトークン数)の2つのフィールドが追加されました。レイテンシについては、128Kの長いプロンプトで最初のトークン応答時間が13秒から500ミリ秒に短縮されます。
セキュリティに関しては、キャッシュシステムはユーザーごとに論理的に分離されており、データのプライバシーが保護されます。未使用のキャッシュは数時間から数日以内に自動的に消去され、保持されることはありません。
DeepSeekがディスクキャッシュで業界をリードする理由は、DeepSeek V2のMLAアーキテクチャにあります。このアーキテクチャはコンテキストのKVキャッシュサイズを大幅に削減し、低コストのディスクに効率的に保存することを可能にしました。DeepSeek APIは1日あたり最大1兆トークンを処理でき、同時実行数やレート制限はありません。キャッシュシステムは64トークンをストレージ単位とし、それ未満のコンテンツはキャッシュされません。また、100%のヒット率は保証されず、未使用のキャッシュは自動的に消去されます。