2026-05-15 10:24 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

擴展與優化前沿模型訓練

Fireworks 發佈的博文介紹瞭如何通過訓練 SDK 和優化技術（如低精度量化、優化器狀態卸載、可組合並行策略、Blackwell 原生精度和流式流水線並行）來擴展和優化萬億參數 MoE 模型的訓練，目前支持多種前沿模型並提供 LoRA 和全參數訓練模式。

來源Fireworks AI Blog

Fireworks 近日發佈了一篇深度技術博文，詳細闡述瞭如何擴展和優化前沿模型（尤其是萬億參數 MoE 模型）的訓練過程。文章以 Cursor 發佈的 Composer 2 為例——這款模型在多個基準測試中取得了領先成績，而其背後的強化學習推理基礎設施正是由 Fireworks 提供支持。

訓練萬億參數 MoE 模型長期受內存瓶頸和集羣編排複雜性困擾。Fireworks 的訓練 SDK 提供了一套完整的解決方案，涵蓋模型目錄、並行策略、精度優化和內存優化。目前，該平台支持包括 Qwen3.5、Kimi K2.5、Llama 3.3 等在內的多種主流模型，並提供 LoRA 和全參數兩種訓練模式。

在 LoRA 模式下，雖然只有少量參數可訓練，但凍結的基模型仍需常駐 GPU 內存。Fireworks 通過低精度專家量化技術，將凍結的專家權重以壓縮格式存儲（約 4 倍內存節省），並在前向傳播時動態反量化。同時，優化器狀態卸載能在 CPU 和 GPU 之間轉移狀態，進一步釋放顯存。例如，在 Qwen3-30B MoE 模型上，該方法使峯值 GPU 內存降低超過 40%，且吞吐量不變。此外，多會話 LoRA 允許多客户端獨立加載和熱切換不同適配器，適用於強化學習工作流。

全參數訓練則面臨更大挑戰：每個權重都需要梯度、優化器狀態和激活值。Fireworks 的引擎從單一配置組合四維並行——FSDP、流水線並行、上下文並行和專家並行——每種策略針對不同瓶頸。例如，一個 8B 密集模型可能僅需 FSDP，而 256K 上下文的 1T MoE 模型則需要全部四種。上下文並行作為長上下文擴展的主要維度，將序列切分到多個節點；專家並行使用 DeepEP 實現高效的令牌路由。對於混合注意力架構，引擎還支持異構層類型的上下文並行。

在計算精度方面，Fireworks 利用 Blackwell 架構的 MXFP8 原生分組 GEMM，在專家計算中實現顯著加速。與 BF16 相比，在 DeepSeek V3 類專家形狀上，前向和反向傳播均有明顯速度提升，且對稱 KL 散度保持在 0.0063 以下。注意力計算則集成了專為 Blackwell SM100 設計的 FA4 內核，支持原生多頭潛在注意力（MLA）形狀。此外，FP8 量化感知訓練（QAT）確保訓練時的偽量化操作與推理引擎完全一致，消除後訓練量化誤差。

強化學習損失計算方面，Fireworks 提供了融合損失計算路徑，將損失計算直接併入前向傳播，消除額外的一次前向傳遞。對於 GRPO、DRO 等常見算法，加速比可達 1.3 至 2 倍，且數值精度與雙通參考一致。流式流水線並行則重新設計了調度策略，數據到達即開始執行，消除批次累積瓶頸，在強化學習場景中首結果延遲可降低一個數量級。

文章最後透露，Fireworks 已驗證在 GB200 集羣上對萬億參數 MoE 模型進行超過一百萬個令牌的上下文訓練，這據稱是業界未見先例的成果。目前可用的訓練形狀支持最大 256K 令牌上下文，團隊正在進一步擴展這一邊界。