2026-05-15 10:24 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

扩展与优化前沿模型训练

Fireworks 发布的博文介绍了如何通过训练 SDK 和优化技术（如低精度量化、优化器状态卸载、可组合并行策略、Blackwell 原生精度和流式流水线并行）来扩展和优化万亿参数 MoE 模型的训练，目前支持多种前沿模型并提供 LoRA 和全参数训练模式。

来源Fireworks AI Blog

Fireworks 近日发布了一篇深度技术博文，详细阐述了如何扩展和优化前沿模型（尤其是万亿参数 MoE 模型）的训练过程。文章以 Cursor 发布的 Composer 2 为例——这款模型在多个基准测试中取得了领先成绩，而其背后的强化学习推理基础设施正是由 Fireworks 提供支持。

训练万亿参数 MoE 模型长期受内存瓶颈和集群编排复杂性困扰。Fireworks 的训练 SDK 提供了一套完整的解决方案，涵盖模型目录、并行策略、精度优化和内存优化。目前，该平台支持包括 Qwen3.5、Kimi K2.5、Llama 3.3 等在内的多种主流模型，并提供 LoRA 和全参数两种训练模式。

在 LoRA 模式下，虽然只有少量参数可训练，但冻结的基模型仍需常驻 GPU 内存。Fireworks 通过低精度专家量化技术，将冻结的专家权重以压缩格式存储（约 4 倍内存节省），并在前向传播时动态反量化。同时，优化器状态卸载能在 CPU 和 GPU 之间转移状态，进一步释放显存。例如，在 Qwen3-30B MoE 模型上，该方法使峰值 GPU 内存降低超过 40%，且吞吐量不变。此外，多会话 LoRA 允许多客户端独立加载和热切换不同适配器，适用于强化学习工作流。

全参数训练则面临更大挑战：每个权重都需要梯度、优化器状态和激活值。Fireworks 的引擎从单一配置组合四维并行——FSDP、流水线并行、上下文并行和专家并行——每种策略针对不同瓶颈。例如，一个 8B 密集模型可能仅需 FSDP，而 256K 上下文的 1T MoE 模型则需要全部四种。上下文并行作为长上下文扩展的主要维度，将序列切分到多个节点；专家并行使用 DeepEP 实现高效的令牌路由。对于混合注意力架构，引擎还支持异构层类型的上下文并行。

在计算精度方面，Fireworks 利用 Blackwell 架构的 MXFP8 原生分组 GEMM，在专家计算中实现显著加速。与 BF16 相比，在 DeepSeek V3 类专家形状上，前向和反向传播均有明显速度提升，且对称 KL 散度保持在 0.0063 以下。注意力计算则集成了专为 Blackwell SM100 设计的 FA4 内核，支持原生多头潜在注意力（MLA）形状。此外，FP8 量化感知训练（QAT）确保训练时的伪量化操作与推理引擎完全一致，消除后训练量化误差。

强化学习损失计算方面，Fireworks 提供了融合损失计算路径，将损失计算直接并入前向传播，消除额外的一次前向传递。对于 GRPO、DRO 等常见算法，加速比可达 1.3 至 2 倍，且数值精度与双通参考一致。流式流水线并行则重新设计了调度策略，数据到达即开始执行，消除批次累积瓶颈，在强化学习场景中首结果延迟可降低一个数量级。

文章最后透露，Fireworks 已验证在 GB200 集群上对万亿参数 MoE 模型进行超过一百万个令牌的上下文训练，这据称是业界未见先例的成果。目前可用的训练形状支持最大 256K 令牌上下文，团队正在进一步扩展这一边界。