2025-12-03 20:03 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

从DeepSeek V3到V3.2：架构、稀疏注意力与强化学习更新

本文深入解读DeepSeek V3.2的技术演进，涵盖从V3到V3.2的架构变化（包括稀疏注意力机制DSA）、强化学习更新（如GRPO改进、自我验证与自我精炼）以及混合推理模型的发展。V3.2在性能上媲美GPT-5和Gemini 3.0 Pro，并采用开源权重发布，重要性不言而喻。

来源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

2025年12月，DeepSeek团队在感恩节周末前后发布了其旗舰开源权重模型DeepSeek V3.2，性能可与GPT-5和Gemini 3.0 Pro等顶级专有模型媲美。本文详细梳理了从DeepSeek V3到V3.2的关键技术演进，包括架构创新、强化学习改进、混合推理策略以及残差路径优化等多方面内容。

DeepSeek模型发布时间线

DeepSeek V3于2024年12月发布，最初并未引起广泛关注。但基于相同架构的DeepSeek R1推理模型使其迅速成为最受欢迎的开源权重模型之一，成为OpenAI、Google、xAI和Anthropic等专有模型的合法替代品。自R1之后，DeepSeek团队经历了约10-11个月的沉寂，期间有小版本更新如V3.1和V3.2-Exp。值得注意的是，团队曾尝试从NVIDIA芯片切换到华为芯片，但最终又回归NVIDIA。V3.2-Exp的发布被视为为后续V3.2正式版铺平道路，尤其实验性的稀疏注意力机制需要自定义代码支持。

混合推理与专用推理模型之争

DeepSeek V3最初只是一个基座模型，R1通过后训练演变为专用推理模型。而V3.1和V3.2则转向混合模型，用户可通过聊天模板在推理和通用模式间切换。这一趋势与其他团队形成对比：Qwen3最初也是混合模型，但后来拆分为独立的指令和推理模型以提升各自性能。OpenAI的gpt-oss则仅提供混合变体。DeepSeek的路线可能表明他们仍在开发专用R2推理模型，而V3系列旨在打造全能型模型。

从DeepSeek V3到V3.1：MLA与RLVR

DeepSeek V3的核心架构包括混合专家（MoE）和多头潜在注意力（MLA）。MLA通过将键值张量压缩到低维空间再存储到KV缓存，显著降低内存占用。DeepSeek R1则采用基于可验证奖励的强化学习（RLVR）方法，使用GRPO（组相对策略优化）算法进行训练。R1-0528版本通过优化后训练管道提升了性能，但具体细节未披露。V3.1首次引入混合推理能力，使用户可以在一个模型中切换模式。

DeepSeek V3.2-Exp与稀疏注意力

2025年9月发布的DeepSeek V3.2-Exp尽管基准测试成绩不突出，但其关键创新是DeepSeek稀疏注意力（DSA）机制。DSA包含闪电索引器和令牌选择器：索引器使用MLA的压缩表示计算每个查询令牌与历史令牌的相关性分数，令牌选择器则保留最高分的少量令牌（例如top-2048），构建稀疏注意力掩码。这使得注意力复杂度从二次方O(L²)降至线性O(Lk)，其中k远小于序列长度L。该机制在长上下文场景下尤其高效。

DeepSeekMath V2：自我验证与自我精炼

2025年11月27日（美国感恩节），DeepSeek团队发布了基于V3.2-Exp-Base的DeepSeekMath V2，专为数学推理设计，在多项数学竞赛中获得金牌级成绩。该模型的核心创新在于自我验证和自我精炼。传统RLVR的局限在于正确答案不一定保证正确推理，且许多数学任务（如定理证明）需要严格的逐步推导而非数值答案。为此，DeepSeek训练了一个LLM验证器（LLM 2）来评估证明生成器（LLM 1）的输出，并引入元验证器（LLM 3）防止验证器产生幻觉。元验证器将验证器的分析质量从0.85提升至0.96。在推理时，生成器与验证器合并为单一模型，通过最多8次迭代的自我精炼逐步优化答案，且精度尚未饱和。

DeepSeek V3.2：架构与训练改进

DeepSeek V3.2采用了与V3.2-Exp完全相同的架构，即MLA与DSA的结合。训练方面的改进则更为显著。首先，奖励设置进行了调整：对推理和智能体任务采用基于规则的结果奖励、长度惩罚和语言一致性奖励，对通用任务则采用生成式奖励模型（即LLM作为评判者）。数学领域直接整合了DeepSeekMath V2的数据集和奖励方法。

GRPO算法本身也经历了多项改进：DeepSeek V3.2保留了KL惩罚，但将其作为可调超参数（数学领域可设为极低甚至零）；引入无偏KL估计，通过重新加权修正梯度偏差；采用离策略序列掩码，丢弃负优势且过于偏离策略的数据；保持MoE路由模式和采样掩码；但保留原始GRPO的优势归一化（区别于Dr. GRPO的激进修改）。此外，DeepSeek V3.2还推出了扩展思考变体V3.2-Speciale，该变体仅使用推理数据训练，并降低长度惩罚以生成更长响应，以更高计算成本换取更高精度。

其他进展：mHC（流形约束超连接）

2025年12月31日，DeepSeek团队提出了mHC（流形约束超连接）方法，旨在改进Transformer的残差路径。该方法在超连接（HC）基础上，约束残差混合位于保持范数的流形上，从而提高训练稳定性。尽管引入少量开销，但显著改善了收敛质量和训练稳定性。

总结

DeepSeek V3.2的核心创新包括：采用稀疏注意力提升效率、整合自我验证与自我精炼提升数学推理、以及GRPO训练管道的多项稳定性改进。无论市场地位如何，DeepSeek每次发布都伴随着详实的技术报告，为开源社区提供了宝贵的学习资源。