扩展与优化前沿模型训练
Fireworks 发布的博文介绍了如何通过训练 SDK 和优化技术(如低精度量化、优化器状态卸载、可组合并行策略、Blackwell 原生精度和流式流水线并行)来扩展和优化万亿参数 MoE 模型的训练,目前支持多种前沿模型并提供 LoRA 和全参数训练模式。
Fireworks 近日发布了一篇深度技术博文,详细阐述了如何扩展和优化前沿模型(尤其是万亿参数 MoE 模型)的训练过程。文章以 Cursor 发布的 Composer 2 为例——这款模型在多个基准测试中取得了领先成绩,而其背后的强化学习推理基础设施正是由 Fireworks 提供支持。
训练万亿参数 MoE 模型长期受内存瓶颈和集群编排复杂性困扰。Fireworks 的训练 SDK 提供了一套完整的解决方案,涵盖模型目录、并行策略、精度优化和内存优化。目前,该平台支持包括 Qwen3.5、Kimi K2.5、Llama 3.3 等在内的多种主流模型,并提供 LoRA 和全参数两种训练模式。
在 LoRA 模式下,虽然只有少量参数可训练,但冻结的基模型仍需常驻 GPU 内存。Fireworks 通过低精度专家量化技术,将冻结的专家权重以压缩格式存储(约 4 倍内存节省),并在前向传播时动态反量化。同时,优化器状态卸载能在 CPU 和 GPU 之间转移状态,进一步释放显存。例如,在 Qwen3-30B MoE 模型上,该方法使峰值 GPU 内存降低超过 40%,且吞吐量不变。此外,多会话 LoRA 允许多客户端独立加载和热切换不同适配器,适用于强化学习工作流。
全参数训练则面临更大挑战:每个权重都需要梯度、优化器状态和激活值。Fireworks 的引擎从单一配置组合四维并行——FSDP、流水线并行、上下文并行和专家并行——每种策略针对不同瓶颈。例如,一个 8B 密集模型可能仅需 FSDP,而 256K 上下文的 1T MoE 模型则需要全部四种。上下文并行作为长上下文扩展的主要维度,将序列切分到多个节点;专家并行使用 DeepEP 实现高效的令牌路由。对于混合注意力架构,引擎还支持异构层类型的上下文并行。
在计算精度方面,Fireworks 利用 Blackwell 架构的 MXFP8 原生分组 GEMM,在专家计算中实现显著加速。与 BF16 相比,在 DeepSeek V3 类专家形状上,前向和反向传播均有明显速度提升,且对称 KL 散度保持在 0.0063 以下。注意力计算则集成了专为 Blackwell SM100 设计的 FA4 内核,支持原生多头潜在注意力(MLA)形状。此外,FP8 量化感知训练(QAT)确保训练时的伪量化操作与推理引擎完全一致,消除后训练量化误差。
强化学习损失计算方面,Fireworks 提供了融合损失计算路径,将损失计算直接并入前向传播,消除额外的一次前向传递。对于 GRPO、DRO 等常见算法,加速比可达 1.3 至 2 倍,且数值精度与双通参考一致。流式流水线并行则重新设计了调度策略,数据到达即开始执行,消除批次累积瓶颈,在强化学习场景中首结果延迟可降低一个数量级。
文章最后透露,Fireworks 已验证在 GB200 集群上对万亿参数 MoE 模型进行超过一百万个令牌的上下文训练,这据称是业界未见先例的成果。目前可用的训练形状支持最大 256K 令牌上下文,团队正在进一步扩展这一边界。