2026-04-25站内改写

DeepSeek V4 Pro（1.6T-A49B）和Flash（284B-A13B）基础版和指令版——可在华为昇腾芯片上运行

经过数月延迟，DeepSeek终于发布了备受期待的DSV4系列，包括Pro和Flash两个版本，具有1M token上下文、混合精度量化、MIT许可，并支持华为昇腾芯片。该系列在开放权重模型中表现顶尖，但在前沿封闭模型面前仍有所不足。

文章情报

工程师进阶

要点

DSV4 Pro: 1.6T参数/49B激活，Flash: 284B参数/13B激活，1M上下文
新架构结合压缩稀疏注意力和重度压缩注意力，显著降低KV缓存至V3.2的10%
MIT许可，支持华为Ascend，API定价有竞争力但评估中token消耗高
在代理任务和长上下文中领先，但整体落后于GPT-5.4等封闭模型

为什么重要

这条新闻值得关注，因为DSV4 Pro: 1.6T参数/49B激活，Flash: 284B参数/13B激活，1M上下文。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

经过数月的延迟和大量猜测，DeepSeek终于发布了备受期待的DeepSeek-V4系列，这是自2024年12月DSV3和2025年1月DSR1以来的首个主要版本。该系列包括V4 Pro（1.6T总参数，49B激活）和V4 Flash（284B总参数，13B激活），两者均支持高达1M token的上下文长度，并采用MIT开源许可协议。此外，DeepSeek还同时发布了基础版和指令版，为可能的“DeepSeek R2”奠定了基础。

DSV4系列在架构上引入了多项创新：采用混合精度量化（FP4专家权重、FP8注意力/归一化/路由器），以及全新的压缩稀疏注意力（CSA）和重度压缩注意力（HCA）技术。这些技术使得在1M上下文下，KV缓存仅为DSV3.2的10%，FLOPs需求仅为27%。多位研究者认为，这种高效的注意力机制是该模型最重要的贡献之一。技术报告详细阐述了训练和推理的改进，包括1月份发布的流形约束超连接（mHC）论文以及Moonshot的Muon优化器。报告长达58页，被多位研究人员誉为年度最重要的AI论文之一。

在性能方面，独立基准测试显示，V4 Pro在开放权重模型中排名第二，仅次于Kimi K2.6，但在整体能力上仍落后于顶级封闭模型（如GPT-5.4、Opus 4.7、Gemini 3.1 Pro）。在代理任务和长上下文场景中，V4 Pro表现出色，在GDPval-AA（代理现实工作）基准上以1554分领先所有开放权重模型，超越了Kimi K2.6、GLM-5.1和MiniMax-M2.7。然而，在AA-Omniscience评估中，V4 Pro的幻觉率仍高达94%，Flash为96%。此外，评估显示V4的token消耗极高：AI Index评估中，Pro消耗了1.9亿输出token，Flash消耗了2.4亿，这意味着低廉的每token定价并不一定意味着低总任务成本。

DeepSeek V4实现了对华为昇腾芯片的兼容，这是减少对出口控制的NVIDIA/CUDA芯片依赖的重要一步。DeepSeek表示，一旦华为Ascend 950超节点在2026年下半年大规模部署，Pro的定价可能会大幅下降。目前，V4 Pro的API定价为$1.74/$3.48每百万输入/输出token，Flash为$0.14/$0.28。社区对此反应热烈，第三方支持迅速到位，包括vLLM、Togethercompute、baseten等。

社区讨论中出现了几个关键分歧：V4是否接近前沿？其真正贡献在于模型质量还是长上下文系统设计？V4是“开源民主化”还是过于复杂难以复制？很多人认为Flash在性价比上可能比Pro更重要。此外，DeepSeek还发布了DeepEP V2和TileKernels，这些开源工具在模型优化和并行化方面取得了显著进展，TileKernels声称实现了线性扩展。

总体而言，DSV4的发布标志着开放权重模型在长上下文和系统设计方面的重要进步，同时也凸显了中国实验室在AI领域的持续竞争力。尽管仍落后于顶级封闭模型，但V4系列在开源社区中树立了新的标杆。