AI News HubLIVE
站內改寫2 分鐘閱讀

擴展與優化前沿模型訓練

Fireworks 發佈的博文介紹瞭如何通過訓練 SDK 和優化技術(如低精度量化、優化器狀態卸載、可組合並行策略、Blackwell 原生精度和流式流水線並行)來擴展和優化萬億參數 MoE 模型的訓練,目前支持多種前沿模型並提供 LoRA 和全參數訓練模式。

Fireworks 近日發佈了一篇深度技術博文,詳細闡述瞭如何擴展和優化前沿模型(尤其是萬億參數 MoE 模型)的訓練過程。文章以 Cursor 發佈的 Composer 2 為例——這款模型在多個基準測試中取得了領先成績,而其背後的強化學習推理基礎設施正是由 Fireworks 提供支持。

訓練萬億參數 MoE 模型長期受內存瓶頸和集羣編排複雜性困擾。Fireworks 的訓練 SDK 提供了一套完整的解決方案,涵蓋模型目錄、並行策略、精度優化和內存優化。目前,該平台支持包括 Qwen3.5、Kimi K2.5、Llama 3.3 等在內的多種主流模型,並提供 LoRA 和全參數兩種訓練模式。

在 LoRA 模式下,雖然只有少量參數可訓練,但凍結的基模型仍需常駐 GPU 內存。Fireworks 通過低精度專家量化技術,將凍結的專家權重以壓縮格式存儲(約 4 倍內存節省),並在前向傳播時動態反量化。同時,優化器狀態卸載能在 CPU 和 GPU 之間轉移狀態,進一步釋放顯存。例如,在 Qwen3-30B MoE 模型上,該方法使峯值 GPU 內存降低超過 40%,且吞吐量不變。此外,多會話 LoRA 允許多客户端獨立加載和熱切換不同適配器,適用於強化學習工作流。

全參數訓練則面臨更大挑戰:每個權重都需要梯度、優化器狀態和激活值。Fireworks 的引擎從單一配置組合四維並行——FSDP、流水線並行、上下文並行和專家並行——每種策略針對不同瓶頸。例如,一個 8B 密集模型可能僅需 FSDP,而 256K 上下文的 1T MoE 模型則需要全部四種。上下文並行作為長上下文擴展的主要維度,將序列切分到多個節點;專家並行使用 DeepEP 實現高效的令牌路由。對於混合注意力架構,引擎還支持異構層類型的上下文並行。

在計算精度方面,Fireworks 利用 Blackwell 架構的 MXFP8 原生分組 GEMM,在專家計算中實現顯著加速。與 BF16 相比,在 DeepSeek V3 類專家形狀上,前向和反向傳播均有明顯速度提升,且對稱 KL 散度保持在 0.0063 以下。注意力計算則集成了專為 Blackwell SM100 設計的 FA4 內核,支持原生多頭潛在注意力(MLA)形狀。此外,FP8 量化感知訓練(QAT)確保訓練時的偽量化操作與推理引擎完全一致,消除後訓練量化誤差。

強化學習損失計算方面,Fireworks 提供了融合損失計算路徑,將損失計算直接併入前向傳播,消除額外的一次前向傳遞。對於 GRPO、DRO 等常見算法,加速比可達 1.3 至 2 倍,且數值精度與雙通參考一致。流式流水線並行則重新設計了調度策略,數據到達即開始執行,消除批次累積瓶頸,在強化學習場景中首結果延遲可降低一個數量級。

文章最後透露,Fireworks 已驗證在 GB200 集羣上對萬億參數 MoE 模型進行超過一百萬個令牌的上下文訓練,這據稱是業界未見先例的成果。目前可用的訓練形狀支持最大 256K 令牌上下文,團隊正在進一步擴展這一邊界。