2026-04-24站内改写

DeepSeek-V4：百万上下文，代理真正可用

DeepSeek发布V4模型，拥有百万token上下文窗口，专为代理任务优化。通过混合注意力机制（CSA和HCA）大幅降低KV缓存和FLOPs，并引入跨工具调用的交错推理、专用工具调用格式以及用于强化学习训练的DSec沙箱。在多个代理基准测试中达到领先水平。

文章情报

工程师进阶

要点

DeepSeek-V4推出Pro和Flash两个MoE检查点，上下文窗口达1M tokens。
采用压缩稀疏注意力和重度压缩注意力混合架构，KV缓存仅需传统GQA的2%。
后训练创新包括跨用户消息保留推理内容、专用|DSML|工具调用格式和DSec沙箱。
在Terminal Bench、SWE Verified等代理基准测试中表现优异，接近封闭前沿模型。

为什么重要

这条新闻值得关注，因为DeepSeek-V4推出Pro和Flash两个MoE检查点，上下文窗口达1M tokens。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

DeepSeek今日正式发布V4系列模型，包括DeepSeek-V4-Pro和DeepSeek-V4-Flash两个MoE变体，均支持百万token级别的上下文窗口。这一发布不仅带来了模型规模的提升，更重要的是在架构设计上针对长上下文和智能体（Agent）任务进行了深度优化。

首先，文章详细介绍了传统注意力机制在处理长序列时的瓶颈：KV缓存和FLOPs随序列长度线性增长。V4通过混合注意力机制——压缩稀疏注意力（CSA）和重度压缩注意力（HCA）——来解决这一问题。CSA通过4倍压缩和稀疏选择，HCA通过128倍压缩和密集注意力，两者交替使用，使得单token推理FLOPs降低至V3.2的27%，KV缓存仅需传统GQA的2%。这些效率提升使得在有限硬件上运行百万token上下文成为可能。

其次，文章重点介绍了针对智能体工作流的后训练创新。V4引入了跨工具调用的交错推理，即使在用户发送新消息后，模型仍保留推理内容，从而维持长周期任务中的连贯思考。此外，专用|DSML|令牌和基于XML的工具调用格式减少了解析错误。DeepSeek Elastic Compute（DSec）沙箱为强化学习提供大规模环境，支持函数调用、容器、微VM和全VM四种执行环境，使训练过程更加高效。

在基准测试方面，V4-Pro-Max在Terminal Bench 2.0上达到67.9，SWE Verified为80.6，MCPAtlas Public为73.6，Toolathlon为51.8，与GPT-5.4-xHigh、Gemini-3.1-Pro和Opus-4.6-Max等封闭模型处于同一水平。在内部研发编码基准测试中，V4-Pro-Max以67%的通过率超越Sonnet 4.5（47%），接近Opus 4.5（70%）。调查显示，52%的DeepSeek开发者认为V4-Pro可以替代他们当前的主力编码模型。

最后，模型已上线Hugging Face，支持Non-think、Think High和Think Max三种推理模式，其中Think Max需要至少384K上下文。推荐采样参数为温度1.0、top_p 1.0。V4的发布为开源社区提供了强大的长上下文和智能体基础模型。