AI News HubLIVE
站内改写

DeepSeek V4 Pro(1.6T-A49B)和Flash(284B-A13B)基础版和指令版——可在华为昇腾芯片上运行

经过数月延迟,DeepSeek终于发布了备受期待的DSV4系列,包括Pro和Flash两个版本,具有1M token上下文、混合精度量化、MIT许可,并支持华为昇腾芯片。该系列在开放权重模型中表现顶尖,但在前沿封闭模型面前仍有所不足。

文章情报

工程师进阶

要点

  • DSV4 Pro: 1.6T参数/49B激活,Flash: 284B参数/13B激活,1M上下文
  • 新架构结合压缩稀疏注意力和重度压缩注意力,显著降低KV缓存至V3.2的10%
  • MIT许可,支持华为Ascend,API定价有竞争力但评估中token消耗高
  • 在代理任务和长上下文中领先,但整体落后于GPT-5.4等封闭模型

为什么重要

这条新闻值得关注,因为DSV4 Pro: 1.6T参数/49B激活,Flash: 284B参数/13B激活,1M上下文。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

经过数月的延迟和大量猜测,DeepSeek终于发布了备受期待的DeepSeek-V4系列,这是自2024年12月DSV3和2025年1月DSR1以来的首个主要版本。该系列包括V4 Pro(1.6T总参数,49B激活)和V4 Flash(284B总参数,13B激活),两者均支持高达1M token的上下文长度,并采用MIT开源许可协议。此外,DeepSeek还同时发布了基础版和指令版,为可能的“DeepSeek R2”奠定了基础。

DSV4系列在架构上引入了多项创新:采用混合精度量化(FP4专家权重、FP8注意力/归一化/路由器),以及全新的压缩稀疏注意力(CSA)和重度压缩注意力(HCA)技术。这些技术使得在1M上下文下,KV缓存仅为DSV3.2的10%,FLOPs需求仅为27%。多位研究者认为,这种高效的注意力机制是该模型最重要的贡献之一。技术报告详细阐述了训练和推理的改进,包括1月份发布的流形约束超连接(mHC)论文以及Moonshot的Muon优化器。报告长达58页,被多位研究人员誉为年度最重要的AI论文之一。

在性能方面,独立基准测试显示,V4 Pro在开放权重模型中排名第二,仅次于Kimi K2.6,但在整体能力上仍落后于顶级封闭模型(如GPT-5.4、Opus 4.7、Gemini 3.1 Pro)。在代理任务和长上下文场景中,V4 Pro表现出色,在GDPval-AA(代理现实工作)基准上以1554分领先所有开放权重模型,超越了Kimi K2.6、GLM-5.1和MiniMax-M2.7。然而,在AA-Omniscience评估中,V4 Pro的幻觉率仍高达94%,Flash为96%。此外,评估显示V4的token消耗极高:AI Index评估中,Pro消耗了1.9亿输出token,Flash消耗了2.4亿,这意味着低廉的每token定价并不一定意味着低总任务成本。

DeepSeek V4实现了对华为昇腾芯片的兼容,这是减少对出口控制的NVIDIA/CUDA芯片依赖的重要一步。DeepSeek表示,一旦华为Ascend 950超节点在2026年下半年大规模部署,Pro的定价可能会大幅下降。目前,V4 Pro的API定价为$1.74/$3.48每百万输入/输出token,Flash为$0.14/$0.28。社区对此反应热烈,第三方支持迅速到位,包括vLLM、Togethercompute、baseten等。

社区讨论中出现了几个关键分歧:V4是否接近前沿?其真正贡献在于模型质量还是长上下文系统设计?V4是“开源民主化”还是过于复杂难以复制?很多人认为Flash在性价比上可能比Pro更重要。此外,DeepSeek还发布了DeepEP V2和TileKernels,这些开源工具在模型优化和并行化方面取得了显著进展,TileKernels声称实现了线性扩展。

总体而言,DSV4的发布标志着开放权重模型在长上下文和系统设计方面的重要进步,同时也凸显了中国实验室在AI领域的持续竞争力。尽管仍落后于顶级封闭模型,但V4系列在开源社区中树立了新的标杆。