AI News HubLIVE
站内改写3 分钟阅读

DeepSeek-V4训练系统笔记

DeepSeek-V4的训练系统展示了架构、路由、奖励建模、推理模式、蒸馏和代理执行如何融入训练循环。关键要点包括:混合注意力机制(CSA和HCA)、基于旧路由器的预取路由稳定方案、通过不同RL配置训练三种推理模式、用生成式奖励模型替代标量奖励、先训练领域专家再通过全词汇logit蒸馏合并、以及将运行时整合进训练循环的代理训练基础设施。这些趋势表明固定训练配方正在让位于可编程训练系统。

DeepSeek-V4的训练系统之所以引人注目,并非因为单一的基准数字,而是其围绕系统的整体形态。论文展示了架构、路由、奖励建模、推理模式、蒸馏和代理执行如何全部成为训练循环的一部分。

对训练基础设施而言,明确的结论是:固定配方已不足以应对需求。研究人员越来越需要可编程循环,而平台负责底层分布式执行、推理集成、检查点和扩展。支持这种灵活性正是Fireworks训练API的核心设计原则。

1. 长上下文成为记忆层次

DeepSeek-V4交替使用压缩稀疏注意力(CSA)和重度压缩注意力(HCA)。CSA压缩KV条目后进行稀疏top-k选择,HCA压缩更激进,但保留对压缩记忆的密集注意力。关键不仅是“更长上下文”,更是模型与运行时的协同设计:注意力模式、KV布局、精度、稀疏选择和推理内核必须对齐。训练面临同样问题:如果服务使用定制内核和压缩缓存,训练期间的评估需要足够接近服务,以避免针对错误的系统进行优化。训练平台设计提示:训练形状、检查点推进和权重同步到部署变得至关重要。架构特定工作不仅是损失函数;平台必须启动正确的训练器、保存可用检查点,并评估最终为用户服务的模型/运行时组合。

2. MoE路由是一个稳定性问题

最有趣的预训练技巧是预期路由。DeepSeek报告损失尖峰与MoE异常值和路由有关。他们的修复方法是将特征与路由解耦:在步骤t,使用当前权重计算特征,但路由索引来自较旧的权重θ_{t-δ}。为避免运行两次模型,他们预取未来批次,用较旧路由器提前计算路由决策,缓存这些路由,稍后重用。他们报告在此模式激活时约20%的开销,仅在尖峰检测器触发回滚时才开启。这是一种条件性运行时干预:检测不稳定、回滚、改变路由行为、缓存侧信道数据,然后恢复正常训练。

3. 推理努力是训练行为

DeepSeek-V4从相同权重暴露三种模式:非思考、高思考、最大思考。这些模式使用不同的RL配置、长度惩罚、上下文窗口和回复格式进行训练。最大思考还获得明确系统指令,推动详尽推理。这使得“推理努力”不再神秘,它不仅是运行时标志,而是由数据、奖励设计、格式化和评估支持的行为契约。

4. 奖励建模变得生成式

对于难以验证的任务,DeepSeek表示放弃传统标量奖励模型,使用生成式奖励模型(GRM)。演员模型本身充当评判者,RL在生成的同时优化评估行为。这意义重大,因为许多有价值任务不易用精确匹配评分:写作、设计、工具使用、研究综合、主观质量和长期代理行为。这些情况下,评估更像是深思熟虑而非标量预测。自评判模型可能有盲点或奖励黑客风险,但方向重要:奖励正从单独训练的标量奖励模型转向通过RL优化的模型生成评估行为。

5. 先专家后同策略蒸馏

DeepSeek不是用一个混合RL阶段训练最终模型。它首先训练领域专家:每个领域从高质量领域数据的监督微调开始,然后使用领域特定提示和奖励信号运行GRPO。这些专家然后通过同策略蒸馏(OPD)合并。学生采样自己的轨迹,超过十个教师模型在这些轨迹上提供目标分布。这避免了直接合并权重或希望单一复合奖励能同时产生所有行为。昂贵部分是全词汇logit蒸馏:不是仅匹配采样token,而是匹配完整教师分布。为使其可行,他们缓存教师最后层隐藏状态,并实时用相关教师头重构logits。

6. 代理训练将运行时拉入循环

DeepSeek-V4还改变了工具使用对话中推理状态的处理方式。对于代理工作流,它保留用户/工具边界间的推理痕迹,而不是在每个用户消息后刷新。对于普通聊天,仍然丢弃先前推理以保持上下文简洁。他们还引入快速指令:附加到主上下文的特殊token,用于辅助决策如搜索/非搜索、查询生成、领域分类和URL读取。无需调用单独控制器模型并支付冗余预填充,这些决策重用主模型的KV缓存。最后,代理训练需要沙盒。DeepSeek描述了一个可抢占的滚动服务,带有token粒度预写日志,以及用于沙盒执行的DeepSeek弹性计算。

总体来看,DeepSeek-V4这六点的主线相同:重要训练决策现在延伸到运行时、评估和基础设施。架构与服务协同设计,路由成为带有侧信道状态的稳定性问题,推理努力、奖励、蒸馏和工具使用都变成可编程循环,涉及滚动、评判者、检查点和执行日志。这正是Fireworks训练API背后的赌注:暴露循环,处理底层系统。全词汇OPD、历史路由器缓存和DSec式沙盒滚动服务需要比大多数平台今天提供的更多原语,但方向无可争辩:固定训练管线正让位于可编程训练系统。