2026-04-24站内改写

DeepSeek-V4：百萬上下文，代理真正可用

DeepSeek釋出V4模型，擁有百萬token上下文視窗，專為代理任務最佳化。透過混合注意力機制（CSA和HCA）大幅降低KV快取和FLOPs，並引入跨工具呼叫的交錯推理、專用工具呼叫格式以及用於強化學習訓練的DSec沙箱。在多個代理基準測試中達到領先水平。

文章情報

工程師進階

要點

DeepSeek-V4推出Pro和Flash兩個MoE檢查點，上下文視窗達1M tokens。
採用壓縮稀疏注意力和重度壓縮注意力混合架構，KV快取僅需傳統GQA的2%。
後訓練創新包括跨使用者訊息保留推理內容、專用|DSML|工具呼叫格式和DSec沙箱。
在Terminal Bench、SWE Verified等代理基準測試中表現優異，接近封閉前沿模型。

為什麼重要

這條新聞值得關注，因為DeepSeek-V4推出Pro和Flash兩個MoE檢查點，上下文視窗達1M tokens。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

DeepSeek今日正式釋出V4系列模型，包括DeepSeek-V4-Pro和DeepSeek-V4-Flash兩個MoE變體，均支援百萬token級別的上下文視窗。這一發布不僅帶來了模型規模的提升，更重要的是在架構設計上針對長上下文和智慧體（Agent）任務進行了深度最佳化。

首先，文章詳細介紹了傳統注意力機制在處理長序列時的瓶頸：KV快取和FLOPs隨序列長度線性增長。V4透過混合注意力機制——壓縮稀疏注意力（CSA）和重度壓縮注意力（HCA）——來解決這一問題。CSA透過4倍壓縮和稀疏選擇，HCA透過128倍壓縮和密集註意力，兩者交替使用，使得單token推理FLOPs降低至V3.2的27%，KV快取僅需傳統GQA的2%。這些效率提升使得在有限硬體上執行百萬token上下文成為可能。

其次，文章重點介紹了針對智慧體工作流的後訓練創新。V4引入了跨工具呼叫的交錯推理，即使在使用者傳送新訊息後，模型仍保留推理內容，從而維持長週期任務中的連貫思考。此外，專用|DSML|令牌和基於XML的工具呼叫格式減少了解析錯誤。DeepSeek Elastic Compute（DSec）沙箱為強化學習提供大規模環境，支援函式呼叫、容器、微VM和全VM四種執行環境，使訓練過程更加高效。

在基準測試方面，V4-Pro-Max在Terminal Bench 2.0上達到67.9，SWE Verified為80.6，MCPAtlas Public為73.6，Toolathlon為51.8，與GPT-5.4-xHigh、Gemini-3.1-Pro和Opus-4.6-Max等封閉模型處於同一水平。在內部研發編碼基準測試中，V4-Pro-Max以67%的透過率超越Sonnet 4.5（47%），接近Opus 4.5（70%）。調查顯示，52%的DeepSeek開發者認為V4-Pro可以替代他們當前的主力編碼模型。

最後，模型已上線Hugging Face，支援Non-think、Think High和Think Max三種推理模式，其中Think Max需要至少384K上下文。推薦取樣引數為溫度1.0、top_p 1.0。V4的釋出為開源社群提供了強大的長上下文和智慧體基礎模型。