DeepSeek-V4:百万上下文,代理真正可用
DeepSeek发布V4模型,拥有百万token上下文窗口,专为代理任务优化。通过混合注意力机制(CSA和HCA)大幅降低KV缓存和FLOPs,并引入跨工具调用的交错推理、专用工具调用格式以及用于强化学习训练的DSec沙箱。在多个代理基准测试中达到领先水平。
文章情报
要点
- DeepSeek-V4推出Pro和Flash两个MoE检查点,上下文窗口达1M tokens。
- 采用压缩稀疏注意力和重度压缩注意力混合架构,KV缓存仅需传统GQA的2%。
- 后训练创新包括跨用户消息保留推理内容、专用|DSML|工具调用格式和DSec沙箱。
- 在Terminal Bench、SWE Verified等代理基准测试中表现优异,接近封闭前沿模型。
为什么重要
这条新闻值得关注,因为DeepSeek-V4推出Pro和Flash两个MoE检查点,上下文窗口达1M tokens。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
DeepSeek今日正式发布V4系列模型,包括DeepSeek-V4-Pro和DeepSeek-V4-Flash两个MoE变体,均支持百万token级别的上下文窗口。这一发布不仅带来了模型规模的提升,更重要的是在架构设计上针对长上下文和智能体(Agent)任务进行了深度优化。
首先,文章详细介绍了传统注意力机制在处理长序列时的瓶颈:KV缓存和FLOPs随序列长度线性增长。V4通过混合注意力机制——压缩稀疏注意力(CSA)和重度压缩注意力(HCA)——来解决这一问题。CSA通过4倍压缩和稀疏选择,HCA通过128倍压缩和密集注意力,两者交替使用,使得单token推理FLOPs降低至V3.2的27%,KV缓存仅需传统GQA的2%。这些效率提升使得在有限硬件上运行百万token上下文成为可能。
其次,文章重点介绍了针对智能体工作流的后训练创新。V4引入了跨工具调用的交错推理,即使在用户发送新消息后,模型仍保留推理内容,从而维持长周期任务中的连贯思考。此外,专用|DSML|令牌和基于XML的工具调用格式减少了解析错误。DeepSeek Elastic Compute(DSec)沙箱为强化学习提供大规模环境,支持函数调用、容器、微VM和全VM四种执行环境,使训练过程更加高效。
在基准测试方面,V4-Pro-Max在Terminal Bench 2.0上达到67.9,SWE Verified为80.6,MCPAtlas Public为73.6,Toolathlon为51.8,与GPT-5.4-xHigh、Gemini-3.1-Pro和Opus-4.6-Max等封闭模型处于同一水平。在内部研发编码基准测试中,V4-Pro-Max以67%的通过率超越Sonnet 4.5(47%),接近Opus 4.5(70%)。调查显示,52%的DeepSeek开发者认为V4-Pro可以替代他们当前的主力编码模型。
最后,模型已上线Hugging Face,支持Non-think、Think High和Think Max三种推理模式,其中Think Max需要至少384K上下文。推荐采样参数为温度1.0、top_p 1.0。V4的发布为开源社区提供了强大的长上下文和智能体基础模型。