AI News HubLIVE
站内改写3 分钟阅读

从DeepSeek V3到V3.2:架构、稀疏注意力与强化学习更新

本文深入解读DeepSeek V3.2的技术演进,涵盖从V3到V3.2的架构变化(包括稀疏注意力机制DSA)、强化学习更新(如GRPO改进、自我验证与自我精炼)以及混合推理模型的发展。V3.2在性能上媲美GPT-5和Gemini 3.0 Pro,并采用开源权重发布,重要性不言而喻。

来源Ahead of AI (Sebastian Raschka)作者: Sebastian Raschka, PhD

2025年12月,DeepSeek团队在感恩节周末前后发布了其旗舰开源权重模型DeepSeek V3.2,性能可与GPT-5和Gemini 3.0 Pro等顶级专有模型媲美。本文详细梳理了从DeepSeek V3到V3.2的关键技术演进,包括架构创新、强化学习改进、混合推理策略以及残差路径优化等多方面内容。

DeepSeek模型发布时间线

DeepSeek V3于2024年12月发布,最初并未引起广泛关注。但基于相同架构的DeepSeek R1推理模型使其迅速成为最受欢迎的开源权重模型之一,成为OpenAI、Google、xAI和Anthropic等专有模型的合法替代品。自R1之后,DeepSeek团队经历了约10-11个月的沉寂,期间有小版本更新如V3.1和V3.2-Exp。值得注意的是,团队曾尝试从NVIDIA芯片切换到华为芯片,但最终又回归NVIDIA。V3.2-Exp的发布被视为为后续V3.2正式版铺平道路,尤其实验性的稀疏注意力机制需要自定义代码支持。

混合推理与专用推理模型之争

DeepSeek V3最初只是一个基座模型,R1通过后训练演变为专用推理模型。而V3.1和V3.2则转向混合模型,用户可通过聊天模板在推理和通用模式间切换。这一趋势与其他团队形成对比:Qwen3最初也是混合模型,但后来拆分为独立的指令和推理模型以提升各自性能。OpenAI的gpt-oss则仅提供混合变体。DeepSeek的路线可能表明他们仍在开发专用R2推理模型,而V3系列旨在打造全能型模型。

从DeepSeek V3到V3.1:MLA与RLVR

DeepSeek V3的核心架构包括混合专家(MoE)和多头潜在注意力(MLA)。MLA通过将键值张量压缩到低维空间再存储到KV缓存,显著降低内存占用。DeepSeek R1则采用基于可验证奖励的强化学习(RLVR)方法,使用GRPO(组相对策略优化)算法进行训练。R1-0528版本通过优化后训练管道提升了性能,但具体细节未披露。V3.1首次引入混合推理能力,使用户可以在一个模型中切换模式。

DeepSeek V3.2-Exp与稀疏注意力

2025年9月发布的DeepSeek V3.2-Exp尽管基准测试成绩不突出,但其关键创新是DeepSeek稀疏注意力(DSA)机制。DSA包含闪电索引器和令牌选择器:索引器使用MLA的压缩表示计算每个查询令牌与历史令牌的相关性分数,令牌选择器则保留最高分的少量令牌(例如top-2048),构建稀疏注意力掩码。这使得注意力复杂度从二次方O(L²)降至线性O(Lk),其中k远小于序列长度L。该机制在长上下文场景下尤其高效。

DeepSeekMath V2:自我验证与自我精炼

2025年11月27日(美国感恩节),DeepSeek团队发布了基于V3.2-Exp-Base的DeepSeekMath V2,专为数学推理设计,在多项数学竞赛中获得金牌级成绩。该模型的核心创新在于自我验证和自我精炼。传统RLVR的局限在于正确答案不一定保证正确推理,且许多数学任务(如定理证明)需要严格的逐步推导而非数值答案。为此,DeepSeek训练了一个LLM验证器(LLM 2)来评估证明生成器(LLM 1)的输出,并引入元验证器(LLM 3)防止验证器产生幻觉。元验证器将验证器的分析质量从0.85提升至0.96。在推理时,生成器与验证器合并为单一模型,通过最多8次迭代的自我精炼逐步优化答案,且精度尚未饱和。

DeepSeek V3.2:架构与训练改进

DeepSeek V3.2采用了与V3.2-Exp完全相同的架构,即MLA与DSA的结合。训练方面的改进则更为显著。首先,奖励设置进行了调整:对推理和智能体任务采用基于规则的结果奖励、长度惩罚和语言一致性奖励,对通用任务则采用生成式奖励模型(即LLM作为评判者)。数学领域直接整合了DeepSeekMath V2的数据集和奖励方法。

GRPO算法本身也经历了多项改进:DeepSeek V3.2保留了KL惩罚,但将其作为可调超参数(数学领域可设为极低甚至零);引入无偏KL估计,通过重新加权修正梯度偏差;采用离策略序列掩码,丢弃负优势且过于偏离策略的数据;保持MoE路由模式和采样掩码;但保留原始GRPO的优势归一化(区别于Dr. GRPO的激进修改)。此外,DeepSeek V3.2还推出了扩展思考变体V3.2-Speciale,该变体仅使用推理数据训练,并降低长度惩罚以生成更长响应,以更高计算成本换取更高精度。

其他进展:mHC(流形约束超连接)

2025年12月31日,DeepSeek团队提出了mHC(流形约束超连接)方法,旨在改进Transformer的残差路径。该方法在超连接(HC)基础上,约束残差混合位于保持范数的流形上,从而提高训练稳定性。尽管引入少量开销,但显著改善了收敛质量和训练稳定性。

总结

DeepSeek V3.2的核心创新包括:采用稀疏注意力提升效率、整合自我验证与自我精炼提升数学推理、以及GRPO训练管道的多项稳定性改进。无论市场地位如何,DeepSeek每次发布都伴随着详实的技术报告,为开源社区提供了宝贵的学习资源。