AI News HubLIVE
站内改写

DeepSeek V4 Pro(1.6T-A49B)和Flash(284B-A13B)基礎版和指令版——可在華為昇騰晶片上執行

經過數月延遲,DeepSeek終於釋出了備受期待的DSV4系列,包括Pro和Flash兩個版本,具有1M token上下文、混合精度量化、MIT許可,並支援華為昇騰晶片。該系列在開放權重模型中表現頂尖,但在前沿封閉模型面前仍有所不足。

文章情報

工程師進階

要點

  • DSV4 Pro: 1.6T引數/49B啟用,Flash: 284B引數/13B啟用,1M上下文
  • 新架構結合壓縮稀疏注意力和重度壓縮注意力,顯著降低KV快取至V3.2的10%
  • MIT許可,支援華為Ascend,API定價有競爭力但評估中token消耗高
  • 在代理任務和長上下文中領先,但整體落後於GPT-5.4等封閉模型

為什麼重要

這條新聞值得關注,因為DSV4 Pro: 1.6T引數/49B啟用,Flash: 284B引數/13B啟用,1M上下文。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

經過數月的延遲和大量猜測,DeepSeek終於釋出了備受期待的DeepSeek-V4系列,這是自2024年12月DSV3和2025年1月DSR1以來的首個主要版本。該系列包括V4 Pro(1.6T總引數,49B啟用)和V4 Flash(284B總引數,13B啟用),兩者均支援高達1M token的上下文長度,並採用MIT開源許可協議。此外,DeepSeek還同時釋出了基礎版和指令版,為可能的“DeepSeek R2”奠定了基礎。

DSV4系列在架構上引入了多項創新:採用混合精度量化(FP4專家權重、FP8注意力/歸一化/路由器),以及全新的壓縮稀疏注意力(CSA)和重度壓縮注意力(HCA)技術。這些技術使得在1M上下文下,KV快取僅為DSV3.2的10%,FLOPs需求僅為27%。多位研究者認為,這種高效的注意力機制是該模型最重要的貢獻之一。技術報告詳細闡述了訓練和推理的改進,包括1月份釋出的流形約束超連線(mHC)論文以及Moonshot的Muon最佳化器。報告長達58頁,被多位研究人員譽為年度最重要的AI論文之一。

在效能方面,獨立基準測試顯示,V4 Pro在開放權重模型中排名第二,僅次於Kimi K2.6,但在整體能力上仍落後於頂級封閉模型(如GPT-5.4、Opus 4.7、Gemini 3.1 Pro)。在代理任務和長上下文場景中,V4 Pro表現出色,在GDPval-AA(代理現實工作)基準上以1554分領先所有開放權重模型,超越了Kimi K2.6、GLM-5.1和MiniMax-M2.7。然而,在AA-Omniscience評估中,V4 Pro的幻覺率仍高達94%,Flash為96%。此外,評估顯示V4的token消耗極高:AI Index評估中,Pro消耗了1.9億輸出token,Flash消耗了2.4億,這意味著低廉的每token定價並不一定意味著低總任務成本。

DeepSeek V4實現了對華為昇騰晶片的相容,這是減少對出口控制的NVIDIA/CUDA晶片依賴的重要一步。DeepSeek表示,一旦華為Ascend 950超節點在2026年下半年大規模部署,Pro的定價可能會大幅下降。目前,V4 Pro的API定價為$1.74/$3.48每百萬輸入/輸出token,Flash為$0.14/$0.28。社群對此反應熱烈,第三方支援迅速到位,包括vLLM、Togethercompute、baseten等。

社群討論中出現了幾個關鍵分歧:V4是否接近前沿?其真正貢獻在於模型質量還是長上下文系統設計?V4是“開源民主化”還是過於複雜難以複製?很多人認為Flash在價效比上可能比Pro更重要。此外,DeepSeek還發布了DeepEP V2和TileKernels,這些開源工具在模型最佳化和並行化方面取得了顯著進展,TileKernels聲稱實現了線性擴充套件。

總體而言,DSV4的釋出標誌著開放權重模型在長上下文和系統設計方面的重要進步,同時也凸顯了中國實驗室在AI領域的持續競爭力。儘管仍落後於頂級封閉模型,但V4系列在開源社群中樹立了新的標杆。