DeepSeek V4 Pro(1.6T-A49B)和Flash(284B-A13B)基礎版和指令版——可在華為昇騰芯片上運行
經過數月延遲,DeepSeek終於發佈了備受期待的DSV4系列,包括Pro和Flash兩個版本,具有1M token上下文、混合精度量化、MIT許可,並支持華為昇騰芯片。該系列在開放權重模型中表現頂尖,但在前沿封閉模型面前仍有所不足。
文章情報
要點
- DSV4 Pro: 1.6T參數/49B激活,Flash: 284B參數/13B激活,1M上下文
- 新架構結合壓縮稀疏注意力和重度壓縮注意力,顯著降低KV緩存至V3.2的10%
- MIT許可,支持華為Ascend,API定價有競爭力但評估中token消耗高
- 在代理任務和長上下文中領先,但整體落後於GPT-5.4等封閉模型
為甚麼重要
這條新聞值得關注,因為DSV4 Pro: 1.6T參數/49B激活,Flash: 284B參數/13B激活,1M上下文。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
經過數月的延遲和大量猜測,DeepSeek終於發佈了備受期待的DeepSeek-V4系列,這是自2024年12月DSV3和2025年1月DSR1以來的首個主要版本。該系列包括V4 Pro(1.6T總參數,49B激活)和V4 Flash(284B總參數,13B激活),兩者均支持高達1M token的上下文長度,並採用MIT開源許可協議。此外,DeepSeek還同時發佈了基礎版和指令版,為可能的“DeepSeek R2”奠定了基礎。
DSV4系列在架構上引入了多項創新:採用混合精度量化(FP4專家權重、FP8注意力/歸一化/路由器),以及全新的壓縮稀疏注意力(CSA)和重度壓縮注意力(HCA)技術。這些技術使得在1M上下文下,KV緩存僅為DSV3.2的10%,FLOPs需求僅為27%。多位研究者認為,這種高效的注意力機制是該模型最重要的貢獻之一。技術報告詳細闡述了訓練和推理的改進,包括1月份發佈的流形約束超連接(mHC)論文以及Moonshot的Muon優化器。報告長達58頁,被多位研究人員譽為年度最重要的AI論文之一。
在性能方面,獨立基準測試顯示,V4 Pro在開放權重模型中排名第二,僅次於Kimi K2.6,但在整體能力上仍落後於頂級封閉模型(如GPT-5.4、Opus 4.7、Gemini 3.1 Pro)。在代理任務和長上下文場景中,V4 Pro表現出色,在GDPval-AA(代理現實工作)基準上以1554分領先所有開放權重模型,超越了Kimi K2.6、GLM-5.1和MiniMax-M2.7。然而,在AA-Omniscience評估中,V4 Pro的幻覺率仍高達94%,Flash為96%。此外,評估顯示V4的token消耗極高:AI Index評估中,Pro消耗了1.9億輸出token,Flash消耗了2.4億,這意味着低廉的每token定價並不一定意味着低總任務成本。
DeepSeek V4實現了對華為昇騰芯片的兼容,這是減少對出口控制的NVIDIA/CUDA芯片依賴的重要一步。DeepSeek表示,一旦華為Ascend 950超節點在2026年下半年大規模部署,Pro的定價可能會大幅下降。目前,V4 Pro的API定價為$1.74/$3.48每百萬輸入/輸出token,Flash為$0.14/$0.28。社區對此反應熱烈,第三方支持迅速到位,包括vLLM、Togethercompute、baseten等。
社區討論中出現了幾個關鍵分歧:V4是否接近前沿?其真正貢獻在於模型質量還是長上下文系統設計?V4是“開源民主化”還是過於複雜難以複製?很多人認為Flash在性價比上可能比Pro更重要。此外,DeepSeek還發布了DeepEP V2和TileKernels,這些開源工具在模型優化和並行化方面取得了顯著進展,TileKernels聲稱實現了線性擴展。
總體而言,DSV4的發佈標誌着開放權重模型在長上下文和系統設計方面的重要進步,同時也凸顯了中國實驗室在AI領域的持續競爭力。儘管仍落後於頂級封閉模型,但V4系列在開源社區中樹立了新的標杆。