強化學習是一個基礎設施問題
本文探討了強化學習在大型語言模型後訓練中的實際應用,指出當前的瓶頸並非算法而是基礎設施。Modal分享了大規模運行RL後訓練的經驗,介紹了其開源庫如何幫助團隊解決多節點訓練、環境管理和GPU利用率等關鍵問題。
文章情報
要點
- 強化學習後訓練LLM的瓶頸是基礎設施,包括訓練引擎、推理沙箱和環境隔離。
- 多節點訓練中,權重同步耗時巨大,RDMA和增量壓縮顯著降低延遲。
- Modal通過Clustered Functions和Sandboxes簡化基礎設施管理,支持快速迭代。
- 開源框架(如veRL、OpenRLHF)和Modal的貢獻幫助團隊專注於算法改進。
為甚麼重要
這條新聞值得關注,因為強化學習後訓練LLM的瓶頸是基礎設施,包括訓練引擎、推理沙箱和環境隔離。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
強化學習(RL)在大型語言模型(LLM)的後訓練中正迅速普及,Modal平台上的使用量激增。團隊幫助了從研究實驗室到大型企業的各類客户,構建訓練系統以從基礎模型中獲得前沿性價比。然而,實際應用中的瓶頸並非算法,而是基礎設施。RL訓練循環可分為三個部分,每一部分都是獨立且棘手的基礎設施問題:首先,需要能夠可靠運行前向傳播、反向傳播和權重更新的訓練引擎,這涉及數十億到數萬億參數;其次,從高性能推理引擎獲取rollouts,這些引擎需在單卡或數百張最新GPU上以接近光速的速度服務模型;最後,隔離環境讓模型策略以與rollouts匹配的一致速率併發執行動作,通常涉及數千到數百萬個容器。
過去一年,多節點訓練成為標配。更多團隊使用開放權重模型進行微調,將AI投入生產而非僅僅製作演示。同時,前沿專有模型的token成本持平或上升,得益於測試時計算的增加。幸而,從NVIDIA、Google到DeepSeek、Kimi等機構都在寬鬆許可下發布優秀模型。小模型(數十億參數以下)仍有微調潛力,但更復雜任務需要更大模型,它們有更高的能力上限、更好的數據效率和更少的災難性遺忘,代價是更多VRAM和帶寬。一旦訓練跨越多個GPU節點,訓練器與rollout引擎間的權重同步成為瓶頸。LoRA、異步RL或聯合部署等技術各有權衡,但訓練集羣昂貴,每閒置一秒都耗費數美分。
同一集羣內,RDMA(遠程直接內存訪問)可將訓練速度提升100倍。例如,Qwen3 8B模型的全權重傳輸在RDMA下僅需41毫秒,而TCP需2.62秒;GLM 4.7(約355B參數)從114.67秒降至1.79秒。在非聯合RL中,RDMA不可用,但增量壓縮可將WAN傳輸時間減少98%,如Kimi K2.6(約1T參數)從480秒降至9.6秒。
團隊常陷入三個問題:維護膠水代碼(集成組件的額外工作)、排隊等待集羣時間、GPU利用率不足。Modal通過統一基礎設施抽象層解決這些問題。用户只需幾行代碼即可啓動RDMA連接的GPU集羣,內置可觀測性、容錯和自動擴縮。Sandboxes以毫秒級啓動,支持每秒數千個容器併發,確保GPU始終忙碌。正確調整沙箱緩衝區大小至關重要:過大則浪費計算,過小則阻塞GPU。一般經驗是每輪rollout至少維護一個沙箱,並考慮錯誤率。
Modal押注開源,因為成功的團隊幾乎都基於veRL、OpenRLHF等開源框架,這些框架已在數十萬GPU小時中得到驗證。Modal不僅支持這些框架,還將改進(如增量壓縮)上游貢獻,並開源了FlashAttention 4和SGLang的改進。他們本可以構建閉源託管服務,但選擇了開源,因為RL生態系統變化太快,封閉產品難以跟上。Modal的價值不是擁有訓練循環,而是提供從Python文件到數千GPU的最簡潔路徑。
總之,用户可以在Modal上創建訓練任務,在RDMA連接的Clustered Functions上運行經過驗證的框架,在數千個併發Sandboxes中編排環境,並將權重存儲在分佈式Volumes中用於後續評估和上線。他們可以安心迭代,因為基礎設施會為他們處理一切。