2026-04-24站内改写

DeepSeek-V4：百万トークンコンテキスト、エージェントが実際に利用可能に

DeepSeekがV4をリリース。100万トークンのコンテキストウィンドウを持ち、エージェントワークロードに最適化。ハイブリッドアテンション（CSAとHCA）によりKVキャッシュを従来のGQAの2%に削減。ツール呼び出しをまたぐ思考の保持、専用の|DSML|ツール呼び出し形式、RLトレーニング用のDSecサンドボックスを導入。複数のエージェントベンチマークで競争力のあるスコアを達成。

記事インテリジェンス

エンジニア上級

要点

DeepSeek-V4はPro（1.6Tパラメータ、49B活性）とFlash（284B、13B活性）の2つのMoEチェックポイントを提供。
圧縮スパースアテンション（CSA）と高圧縮アテンション（HCA）を組み合わせたハイブリッドアテンションで推論コストを大幅に削減。
ツール呼び出しをまたいだ思考の保持、|DSML| XML形式、DSecサンドボックスなどエージェント向けの改良。
SWE Verifiedで80.6%、MCPAtlasで73.6を達成し、クローズドモデルに迫る。

重要な理由

このニュースが重要なのは、DeepSeek-V4はPro（1.6Tパラメータ、49B活性）とFlash（284B、13B活性）の2つのMoEチェックポイントを提供ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

DeepSeekは本日、V4シリーズモデルを正式リリースしました。DeepSeek-V4-ProとDeepSeek-V4-Flashの2つのMoEバリアントがあり、どちらも100万トークンのコンテキストウィンドウを備えています。このリリースでは、モデル規模の拡大だけでなく、長いコンテキストとエージェントタスクに特化したアーキテクチャ設計が重要な革新となっています。

まず、従来のアテンションメカニズムが長いシーケンスで直面するボトルネック（KVキャッシュとFLOPsの線形増加）に対して、V4はハイブリッドアテンション（圧縮スパースアテンションCSAと高圧縮アテンションHCA）を導入しました。CSAは4倍圧縮とスパース選択、HCAは128倍圧縮と高密度アテンションを利用し、これらを層ごとに交互に配置することで、単一トークン推論のFLOPsをV3.2の27%に、KVキャッシュを従来のGQAの2%に削減しました。これにより、限られたハードウェアでも100万トークンのコンテキストを効率的に処理できます。

次に、エージェントワークフロー向けのポストトレーニング改善が強調されています。V4はツール呼び出しをまたぐ思考の保持を導入し、ユーザーからの新規メッセージが届いても推論内容を維持することで、長期的なタスクにおける一貫した思考連鎖を実現します。さらに、専用の|DSML|トークンとXMLベースのツール呼び出し形式により、パースエラーを低減。DeepSeek Elastic Compute（DSec）サンドボックスは、関数呼び出し、コンテナ、マイクロVM、フルVMの4つの実行環境を提供し、強化学習トレーニングを大規模に支援します。

ベンチマークでは、V4-Pro-MaxがTerminal Bench 2.0で67.9、SWE Verifiedで80.6、MCPAtlas Publicで73.6、Toolathlonで51.8を達成し、GPT-5.4-xHigh、Gemini-3.1-Pro、Opus-4.6-Maxといったクローズドモデルに匹敵するスコアを記録しました。内部の研究開発用コーディングベンチマークでは、V4-Pro-Maxが67%の合格率でSonnet 4.5（47%）を上回り、Opus 4.5（70%）に迫りました。DeepSeek開発者の調査では、52%がV4-Proを現在の主力コーディングモデルの代替として十分と回答しました。

モデルはHugging Faceで公開されており、Non-think、Think High、Think Maxの3つの推論モードをサポート。Think Maxモードでは少なくとも384Kトークンのコンテキストが必要です。推奨サンプリングパラメータは温度1.0、top_p 1.0です。V4のリリースは、オープンソースコミュニティに強力な長コンテキスト・エージェント基盤モデルを提供します。