AI News HubLIVE
站内改写

DeepSeek-V4:百萬上下文,代理真正可用

DeepSeek釋出V4模型,擁有百萬token上下文視窗,專為代理任務最佳化。透過混合注意力機制(CSA和HCA)大幅降低KV快取和FLOPs,並引入跨工具呼叫的交錯推理、專用工具呼叫格式以及用於強化學習訓練的DSec沙箱。在多個代理基準測試中達到領先水平。

文章情報

工程師進階

要點

  • DeepSeek-V4推出Pro和Flash兩個MoE檢查點,上下文視窗達1M tokens。
  • 採用壓縮稀疏注意力和重度壓縮注意力混合架構,KV快取僅需傳統GQA的2%。
  • 後訓練創新包括跨使用者訊息保留推理內容、專用|DSML|工具呼叫格式和DSec沙箱。
  • 在Terminal Bench、SWE Verified等代理基準測試中表現優異,接近封閉前沿模型。

為什麼重要

這條新聞值得關注,因為DeepSeek-V4推出Pro和Flash兩個MoE檢查點,上下文視窗達1M tokens。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

DeepSeek今日正式釋出V4系列模型,包括DeepSeek-V4-Pro和DeepSeek-V4-Flash兩個MoE變體,均支援百萬token級別的上下文視窗。這一發布不僅帶來了模型規模的提升,更重要的是在架構設計上針對長上下文和智慧體(Agent)任務進行了深度最佳化。

首先,文章詳細介紹了傳統注意力機制在處理長序列時的瓶頸:KV快取和FLOPs隨序列長度線性增長。V4透過混合注意力機制——壓縮稀疏注意力(CSA)和重度壓縮注意力(HCA)——來解決這一問題。CSA透過4倍壓縮和稀疏選擇,HCA透過128倍壓縮和密集註意力,兩者交替使用,使得單token推理FLOPs降低至V3.2的27%,KV快取僅需傳統GQA的2%。這些效率提升使得在有限硬體上執行百萬token上下文成為可能。

其次,文章重點介紹了針對智慧體工作流的後訓練創新。V4引入了跨工具呼叫的交錯推理,即使在使用者傳送新訊息後,模型仍保留推理內容,從而維持長週期任務中的連貫思考。此外,專用|DSML|令牌和基於XML的工具呼叫格式減少了解析錯誤。DeepSeek Elastic Compute(DSec)沙箱為強化學習提供大規模環境,支援函式呼叫、容器、微VM和全VM四種執行環境,使訓練過程更加高效。

在基準測試方面,V4-Pro-Max在Terminal Bench 2.0上達到67.9,SWE Verified為80.6,MCPAtlas Public為73.6,Toolathlon為51.8,與GPT-5.4-xHigh、Gemini-3.1-Pro和Opus-4.6-Max等封閉模型處於同一水平。在內部研發編碼基準測試中,V4-Pro-Max以67%的透過率超越Sonnet 4.5(47%),接近Opus 4.5(70%)。調查顯示,52%的DeepSeek開發者認為V4-Pro可以替代他們當前的主力編碼模型。

最後,模型已上線Hugging Face,支援Non-think、Think High和Think Max三種推理模式,其中Think Max需要至少384K上下文。推薦取樣引數為溫度1.0、top_p 1.0。V4的釋出為開源社群提供了強大的長上下文和智慧體基礎模型。