2026-04-25站内改写

DeepSeek V4 Pro（1.6T-A49B）和Flash（284B-A13B）基礎版和指令版——可在華為昇騰晶片上執行

經過數月延遲，DeepSeek終於釋出了備受期待的DSV4系列，包括Pro和Flash兩個版本，具有1M token上下文、混合精度量化、MIT許可，並支援華為昇騰晶片。該系列在開放權重模型中表現頂尖，但在前沿封閉模型面前仍有所不足。

文章情報

工程師進階

要點

DSV4 Pro: 1.6T引數/49B啟用，Flash: 284B引數/13B啟用，1M上下文
新架構結合壓縮稀疏注意力和重度壓縮注意力，顯著降低KV快取至V3.2的10%
MIT許可，支援華為Ascend，API定價有競爭力但評估中token消耗高
在代理任務和長上下文中領先，但整體落後於GPT-5.4等封閉模型

為什麼重要

這條新聞值得關注，因為DSV4 Pro: 1.6T引數/49B啟用，Flash: 284B引數/13B啟用，1M上下文。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

經過數月的延遲和大量猜測，DeepSeek終於釋出了備受期待的DeepSeek-V4系列，這是自2024年12月DSV3和2025年1月DSR1以來的首個主要版本。該系列包括V4 Pro（1.6T總引數，49B啟用）和V4 Flash（284B總引數，13B啟用），兩者均支援高達1M token的上下文長度，並採用MIT開源許可協議。此外，DeepSeek還同時釋出了基礎版和指令版，為可能的“DeepSeek R2”奠定了基礎。

DSV4系列在架構上引入了多項創新：採用混合精度量化（FP4專家權重、FP8注意力/歸一化/路由器），以及全新的壓縮稀疏注意力（CSA）和重度壓縮注意力（HCA）技術。這些技術使得在1M上下文下，KV快取僅為DSV3.2的10%，FLOPs需求僅為27%。多位研究者認為，這種高效的注意力機制是該模型最重要的貢獻之一。技術報告詳細闡述了訓練和推理的改進，包括1月份釋出的流形約束超連線（mHC）論文以及Moonshot的Muon最佳化器。報告長達58頁，被多位研究人員譽為年度最重要的AI論文之一。

在效能方面，獨立基準測試顯示，V4 Pro在開放權重模型中排名第二，僅次於Kimi K2.6，但在整體能力上仍落後於頂級封閉模型（如GPT-5.4、Opus 4.7、Gemini 3.1 Pro）。在代理任務和長上下文場景中，V4 Pro表現出色，在GDPval-AA（代理現實工作）基準上以1554分領先所有開放權重模型，超越了Kimi K2.6、GLM-5.1和MiniMax-M2.7。然而，在AA-Omniscience評估中，V4 Pro的幻覺率仍高達94%，Flash為96%。此外，評估顯示V4的token消耗極高：AI Index評估中，Pro消耗了1.9億輸出token，Flash消耗了2.4億，這意味著低廉的每token定價並不一定意味著低總任務成本。

DeepSeek V4實現了對華為昇騰晶片的相容，這是減少對出口控制的NVIDIA/CUDA晶片依賴的重要一步。DeepSeek表示，一旦華為Ascend 950超節點在2026年下半年大規模部署，Pro的定價可能會大幅下降。目前，V4 Pro的API定價為$1.74/$3.48每百萬輸入/輸出token，Flash為$0.14/$0.28。社群對此反應熱烈，第三方支援迅速到位，包括vLLM、Togethercompute、baseten等。

社群討論中出現了幾個關鍵分歧：V4是否接近前沿？其真正貢獻在於模型質量還是長上下文系統設計？V4是“開源民主化”還是過於複雜難以複製？很多人認為Flash在價效比上可能比Pro更重要。此外，DeepSeek還發布了DeepEP V2和TileKernels，這些開源工具在模型最佳化和並行化方面取得了顯著進展，TileKernels聲稱實現了線性擴充套件。

總體而言，DSV4的釋出標誌著開放權重模型在長上下文和系統設計方面的重要進步，同時也凸顯了中國實驗室在AI領域的持續競爭力。儘管仍落後於頂級封閉模型，但V4系列在開源社群中樹立了新的標杆。