2026-05-29 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

強化學習是一個基礎設施問題

本文探討了強化學習在大型語言模型後訓練中的實際應用，指出當前的瓶頸並非算法而是基礎設施。Modal分享了大規模運行RL後訓練的經驗，介紹了其開源庫如何幫助團隊解決多節點訓練、環境管理和GPU利用率等關鍵問題。

強化學習（RL）在大型語言模型（LLM）的後訓練中正迅速普及，Modal平台上的使用量激增。團隊幫助了從研究實驗室到大型企業的各類客户，構建訓練系統以從基礎模型中獲得前沿性價比。然而，實際應用中的瓶頸並非算法，而是基礎設施。RL訓練循環可分為三個部分，每一部分都是獨立且棘手的基礎設施問題：首先，需要能夠可靠運行前向傳播、反向傳播和權重更新的訓練引擎，這涉及數十億到數萬億參數；其次，從高性能推理引擎獲取rollouts，這些引擎需在單卡或數百張最新GPU上以接近光速的速度服務模型；最後，隔離環境讓模型策略以與rollouts匹配的一致速率併發執行動作，通常涉及數千到數百萬個容器。

過去一年，多節點訓練成為標配。更多團隊使用開放權重模型進行微調，將AI投入生產而非僅僅製作演示。同時，前沿專有模型的token成本持平或上升，得益於測試時計算的增加。幸而，從NVIDIA、Google到DeepSeek、Kimi等機構都在寬鬆許可下發布優秀模型。小模型（數十億參數以下）仍有微調潛力，但更復雜任務需要更大模型，它們有更高的能力上限、更好的數據效率和更少的災難性遺忘，代價是更多VRAM和帶寬。一旦訓練跨越多個GPU節點，訓練器與rollout引擎間的權重同步成為瓶頸。LoRA、異步RL或聯合部署等技術各有權衡，但訓練集羣昂貴，每閒置一秒都耗費數美分。

同一集羣內，RDMA（遠程直接內存訪問）可將訓練速度提升100倍。例如，Qwen3 8B模型的全權重傳輸在RDMA下僅需41毫秒，而TCP需2.62秒；GLM 4.7（約355B參數）從114.67秒降至1.79秒。在非聯合RL中，RDMA不可用，但增量壓縮可將WAN傳輸時間減少98%，如Kimi K2.6（約1T參數）從480秒降至9.6秒。

團隊常陷入三個問題：維護膠水代碼（集成組件的額外工作）、排隊等待集羣時間、GPU利用率不足。Modal通過統一基礎設施抽象層解決這些問題。用户只需幾行代碼即可啓動RDMA連接的GPU集羣，內置可觀測性、容錯和自動擴縮。Sandboxes以毫秒級啓動，支持每秒數千個容器併發，確保GPU始終忙碌。正確調整沙箱緩衝區大小至關重要：過大則浪費計算，過小則阻塞GPU。一般經驗是每輪rollout至少維護一個沙箱，並考慮錯誤率。

Modal押注開源，因為成功的團隊幾乎都基於veRL、OpenRLHF等開源框架，這些框架已在數十萬GPU小時中得到驗證。Modal不僅支持這些框架，還將改進（如增量壓縮）上游貢獻，並開源了FlashAttention 4和SGLang的改進。他們本可以構建閉源託管服務，但選擇了開源，因為RL生態系統變化太快，封閉產品難以跟上。Modal的價值不是擁有訓練循環，而是提供從Python文件到數千GPU的最簡潔路徑。

總之，用户可以在Modal上創建訓練任務，在RDMA連接的Clustered Functions上運行經過驗證的框架，在數千個併發Sandboxes中編排環境，並將權重存儲在分佈式Volumes中用於後續評估和上線。他們可以安心迭代，因為基礎設施會為他們處理一切。