2026-05-15 10:24 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

DeepSeek-V4训练系统笔记

DeepSeek-V4的训练系统展示了架构、路由、奖励建模、推理模式、蒸馏和代理执行如何融入训练循环。关键要点包括：混合注意力机制（CSA和HCA）、基于旧路由器的预取路由稳定方案、通过不同RL配置训练三种推理模式、用生成式奖励模型替代标量奖励、先训练领域专家再通过全词汇logit蒸馏合并、以及将运行时整合进训练循环的代理训练基础设施。这些趋势表明固定训练配方正在让位于可编程训练系统。

来源Fireworks AI Blog

DeepSeek-V4的训练系统之所以引人注目，并非因为单一的基准数字，而是其围绕系统的整体形态。论文展示了架构、路由、奖励建模、推理模式、蒸馏和代理执行如何全部成为训练循环的一部分。

对训练基础设施而言，明确的结论是：固定配方已不足以应对需求。研究人员越来越需要可编程循环，而平台负责底层分布式执行、推理集成、检查点和扩展。支持这种灵活性正是Fireworks训练API的核心设计原则。

1. 长上下文成为记忆层次

DeepSeek-V4交替使用压缩稀疏注意力（CSA）和重度压缩注意力（HCA）。CSA压缩KV条目后进行稀疏top-k选择，HCA压缩更激进，但保留对压缩记忆的密集注意力。关键不仅是“更长上下文”，更是模型与运行时的协同设计：注意力模式、KV布局、精度、稀疏选择和推理内核必须对齐。训练面临同样问题：如果服务使用定制内核和压缩缓存，训练期间的评估需要足够接近服务，以避免针对错误的系统进行优化。训练平台设计提示：训练形状、检查点推进和权重同步到部署变得至关重要。架构特定工作不仅是损失函数；平台必须启动正确的训练器、保存可用检查点，并评估最终为用户服务的模型/运行时组合。

2. MoE路由是一个稳定性问题

最有趣的预训练技巧是预期路由。DeepSeek报告损失尖峰与MoE异常值和路由有关。他们的修复方法是将特征与路由解耦：在步骤t，使用当前权重计算特征，但路由索引来自较旧的权重θ_{t-δ}。为避免运行两次模型，他们预取未来批次，用较旧路由器提前计算路由决策，缓存这些路由，稍后重用。他们报告在此模式激活时约20%的开销，仅在尖峰检测器触发回滚时才开启。这是一种条件性运行时干预：检测不稳定、回滚、改变路由行为、缓存侧信道数据，然后恢复正常训练。

3. 推理努力是训练行为

DeepSeek-V4从相同权重暴露三种模式：非思考、高思考、最大思考。这些模式使用不同的RL配置、长度惩罚、上下文窗口和回复格式进行训练。最大思考还获得明确系统指令，推动详尽推理。这使得“推理努力”不再神秘，它不仅是运行时标志，而是由数据、奖励设计、格式化和评估支持的行为契约。

4. 奖励建模变得生成式

对于难以验证的任务，DeepSeek表示放弃传统标量奖励模型，使用生成式奖励模型（GRM）。演员模型本身充当评判者，RL在生成的同时优化评估行为。这意义重大，因为许多有价值任务不易用精确匹配评分：写作、设计、工具使用、研究综合、主观质量和长期代理行为。这些情况下，评估更像是深思熟虑而非标量预测。自评判模型可能有盲点或奖励黑客风险，但方向重要：奖励正从单独训练的标量奖励模型转向通过RL优化的模型生成评估行为。

5. 先专家后同策略蒸馏

DeepSeek不是用一个混合RL阶段训练最终模型。它首先训练领域专家：每个领域从高质量领域数据的监督微调开始，然后使用领域特定提示和奖励信号运行GRPO。这些专家然后通过同策略蒸馏（OPD）合并。学生采样自己的轨迹，超过十个教师模型在这些轨迹上提供目标分布。这避免了直接合并权重或希望单一复合奖励能同时产生所有行为。昂贵部分是全词汇logit蒸馏：不是仅匹配采样token，而是匹配完整教师分布。为使其可行，他们缓存教师最后层隐藏状态，并实时用相关教师头重构logits。

6. 代理训练将运行时拉入循环

DeepSeek-V4还改变了工具使用对话中推理状态的处理方式。对于代理工作流，它保留用户/工具边界间的推理痕迹，而不是在每个用户消息后刷新。对于普通聊天，仍然丢弃先前推理以保持上下文简洁。他们还引入快速指令：附加到主上下文的特殊token，用于辅助决策如搜索/非搜索、查询生成、领域分类和URL读取。无需调用单独控制器模型并支付冗余预填充，这些决策重用主模型的KV缓存。最后，代理训练需要沙盒。DeepSeek描述了一个可抢占的滚动服务，带有token粒度预写日志，以及用于沙盒执行的DeepSeek弹性计算。

总体来看，DeepSeek-V4这六点的主线相同：重要训练决策现在延伸到运行时、评估和基础设施。架构与服务协同设计，路由成为带有侧信道状态的稳定性问题，推理努力、奖励、蒸馏和工具使用都变成可编程循环，涉及滚动、评判者、检查点和执行日志。这正是Fireworks训练API背后的赌注：暴露循环，处理底层系统。全词汇OPD、历史路由器缓存和DSec式沙盒滚动服务需要比大多数平台今天提供的更多原语，但方向无可争辩：固定训练管线正让位于可编程训练系统。