2026-04-25站内改写

DeepSeek V4 Pro（1.6T-A49B）和Flash（284B-A13B）基礎版和指令版——可在華為昇騰芯片上運行

經過數月延遲，DeepSeek終於發佈了備受期待的DSV4系列，包括Pro和Flash兩個版本，具有1M token上下文、混合精度量化、MIT許可，並支持華為昇騰芯片。該系列在開放權重模型中表現頂尖，但在前沿封閉模型面前仍有所不足。

文章情報

工程師進階

要點

DSV4 Pro: 1.6T參數/49B激活，Flash: 284B參數/13B激活，1M上下文
新架構結合壓縮稀疏注意力和重度壓縮注意力，顯著降低KV緩存至V3.2的10%
MIT許可，支持華為Ascend，API定價有競爭力但評估中token消耗高
在代理任務和長上下文中領先，但整體落後於GPT-5.4等封閉模型

為甚麼重要

這條新聞值得關注，因為DSV4 Pro: 1.6T參數/49B激活，Flash: 284B參數/13B激活，1M上下文。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

經過數月的延遲和大量猜測，DeepSeek終於發佈了備受期待的DeepSeek-V4系列，這是自2024年12月DSV3和2025年1月DSR1以來的首個主要版本。該系列包括V4 Pro（1.6T總參數，49B激活）和V4 Flash（284B總參數，13B激活），兩者均支持高達1M token的上下文長度，並採用MIT開源許可協議。此外，DeepSeek還同時發佈了基礎版和指令版，為可能的“DeepSeek R2”奠定了基礎。

DSV4系列在架構上引入了多項創新：採用混合精度量化（FP4專家權重、FP8注意力/歸一化/路由器），以及全新的壓縮稀疏注意力（CSA）和重度壓縮注意力（HCA）技術。這些技術使得在1M上下文下，KV緩存僅為DSV3.2的10%，FLOPs需求僅為27%。多位研究者認為，這種高效的注意力機制是該模型最重要的貢獻之一。技術報告詳細闡述了訓練和推理的改進，包括1月份發佈的流形約束超連接（mHC）論文以及Moonshot的Muon優化器。報告長達58頁，被多位研究人員譽為年度最重要的AI論文之一。

在性能方面，獨立基準測試顯示，V4 Pro在開放權重模型中排名第二，僅次於Kimi K2.6，但在整體能力上仍落後於頂級封閉模型（如GPT-5.4、Opus 4.7、Gemini 3.1 Pro）。在代理任務和長上下文場景中，V4 Pro表現出色，在GDPval-AA（代理現實工作）基準上以1554分領先所有開放權重模型，超越了Kimi K2.6、GLM-5.1和MiniMax-M2.7。然而，在AA-Omniscience評估中，V4 Pro的幻覺率仍高達94%，Flash為96%。此外，評估顯示V4的token消耗極高：AI Index評估中，Pro消耗了1.9億輸出token，Flash消耗了2.4億，這意味着低廉的每token定價並不一定意味着低總任務成本。

DeepSeek V4實現了對華為昇騰芯片的兼容，這是減少對出口控制的NVIDIA/CUDA芯片依賴的重要一步。DeepSeek表示，一旦華為Ascend 950超節點在2026年下半年大規模部署，Pro的定價可能會大幅下降。目前，V4 Pro的API定價為$1.74/$3.48每百萬輸入/輸出token，Flash為$0.14/$0.28。社區對此反應熱烈，第三方支持迅速到位，包括vLLM、Togethercompute、baseten等。

社區討論中出現了幾個關鍵分歧：V4是否接近前沿？其真正貢獻在於模型質量還是長上下文系統設計？V4是“開源民主化”還是過於複雜難以複製？很多人認為Flash在性價比上可能比Pro更重要。此外，DeepSeek還發布了DeepEP V2和TileKernels，這些開源工具在模型優化和並行化方面取得了顯著進展，TileKernels聲稱實現了線性擴展。

總體而言，DSV4的發佈標誌着開放權重模型在長上下文和系統設計方面的重要進步，同時也凸顯了中國實驗室在AI領域的持續競爭力。儘管仍落後於頂級封閉模型，但V4系列在開源社區中樹立了新的標杆。