2026-05-08 09:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

DeepSeek-V4の提供：なぜ100万トークンコンテキストが推論システムの問題なのか

DeepSeek-V4はハイブリッドアテンション設計（CSA、HCA、SWA）によりKVキャッシュを圧縮し、100万トークンコンテキストをモデルの課題から推論システムの課題へと変えました。Together AIのNVIDIA HGX B200における初期導入経験は、キャッシュポリシー、プレフィックスキャッシング、エンドポイント設定が長コンテキストワークロードのパフォーマンスにどのように影響するかを示しています。

ソースTogether AI Blog

記事インテリジェンス

エンジニア上級

要点

DeepSeek-V4の圧縮スパースアテンション（CSA）と強圧縮アテンション（HCA）はKVキャッシュサイズを削減するが、推論エンジンは複数のキャッシュレイアウトを管理する必要がある。
スライディングウィンドウアテンション（SWA）は長コンテキストでボトルネックとなり、慎重なストレージ戦略が必要。
プレフィックスキャッシングはCSA、HCA、SWAにわたるストレージポリシーの決定となる。
V4のパフォーマンスはワークロードに依存する：長コンテキストデコードは早期に恩恵を受けるが、短コンテキストプリフィルはカーネルの成熟度に依存する。

重要な理由

このニュースが重要なのは、DeepSeek-V4の圧縮スパースアテンション（CSA）と強圧縮アテンション（HCA）はKVキャッシュサイズを削減するが、推論エンジンは複数のキャッシュレイアウトを管理する必要があるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

DeepSeek-V4の100万トークンコンテキストウィンドウは、単なるモデルアーキテクチャの問題ではなく、推論システムにおける課題です。このモデルは、圧縮スパースアテンション（CSA）、強圧縮アテンション（HCA）、スライディングウィンドウアテンション（SWA）からなるハイブリッドアテンション機構を採用し、KVキャッシュを大幅に圧縮します。しかし、これらの圧縮操作の効果は、推論エンジンが結果として生じる複数のキャッシュレイアウトを効率的に管理できるかどうかにかかっています。

NVIDIA HGX B200上での初期導入では、V4のキャッシュ容量はSWA状態の処理方法に大きく依存することがわかりました。SWAを完全に保存すると、トークンあたりのKV占有量は3.8KBとV3の3.4KBを上回ります。キャッシュポリシーを最適化し、再利用される可能性が最も高いSWA状態のみを保持することで、単一ノードのKVキャッシュ容量は約120万トークンから370万トークンに増加しました。これは、V4のアーキテクチャが長コンテキスト効率の機会を生み出す一方で、実際の容量はエンジンのストレージ、再計算、および削除ポリシーに依存することを示しています。

V4には3つの異なるキャッシュレイアウトが必要です。CSAはステップ4でコンテキストを圧縮し、各エントリは8トークンの近傍をカバーして細粒度のスパース読み取りを実現します。HCAはステップ128で圧縮し、100万トークンを約8000エントリに削減して大域的な密アテンションを可能にします。SWAは128トークンの正確な局所コンテキストを保持します。推論エンジンは、サイズ、寿命、読み取りパターンが異なるこれらのキャッシュオブジェクトを同時に管理する必要があります。

プレフィックスキャッシングはV4ではより複雑になります。共有プレフィックスにはCSA、HCA、SWAの状態が含まれます。DeepSeekの論文では3つのSWA戦略が提案されています：完全保存、定期的なチェックポイント保存、およびヒット時の再計算です。現在の導入では完全保存を採用して単純さを保っていますが、これはコンテキスト長と同時実行性が増加するにつれてキャッシュポリシーがより重要になることを意味します。

V4のパフォーマンスはワークロードに強く依存します。長コンテキストのデコード主体のワークロードはKVキャッシュの圧縮により大きな恩恵を受けます。一方、短コンテキストのプリフィル主体のワークロードはカーネルの成熟度に依存します。これは、CSAのtop-k選択、HCAの圧縮読み取り、SWAが成熟した密アテンションカーネルパスから逸脱しているためです。開発者は実際の使用シナリオに基づいてベンチマークを実施する必要があります。

同じ重みでも異なるサービングプロファイルが必要です。長コンテキストエージェントには大きなテンソル並列とバッチ処理が適しています。短いチャットはプリフィルレイテンシの最適化が必要です。強化学習のロールアウトは軌跡あたりのコストを重視します。Together AIはさまざまなワークロードに合わせてエンドポイント設定を評価しています。

V4に移行する前に、コンテキスト長範囲、プレフィックス再利用率、キャッシュポリシー、エンドポイント設定の4項目についてベンチマークを実施してください。長コンテキストタスクではキャッシュヒット率、デコードスループット、タスク完了コストを測定します。短いチャットでは実際のコンテキスト長でのレイテンシを比較します。共有プレフィックスワークロードでは、SWA完全保存とヒット時再計算のトレードオフをテストします。強化学習ではロールアウトあたりのスループットを計算します。