2026-05-29 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

强化学习是一个基础设施问题

本文探讨了强化学习在大型语言模型后训练中的实际应用，指出当前的瓶颈并非算法而是基础设施。Modal分享了大规模运行RL后训练的经验，介绍了其开源库如何帮助团队解决多节点训练、环境管理和GPU利用率等关键问题。

强化学习（RL）在大型语言模型（LLM）的后训练中正迅速普及，Modal平台上的使用量激增。团队帮助了从研究实验室到大型企业的各类客户，构建训练系统以从基础模型中获得前沿性价比。然而，实际应用中的瓶颈并非算法，而是基础设施。RL训练循环可分为三个部分，每一部分都是独立且棘手的基础设施问题：首先，需要能够可靠运行前向传播、反向传播和权重更新的训练引擎，这涉及数十亿到数万亿参数；其次，从高性能推理引擎获取rollouts，这些引擎需在单卡或数百张最新GPU上以接近光速的速度服务模型；最后，隔离环境让模型策略以与rollouts匹配的一致速率并发执行动作，通常涉及数千到数百万个容器。

过去一年，多节点训练成为标配。更多团队使用开放权重模型进行微调，将AI投入生产而非仅仅制作演示。同时，前沿专有模型的token成本持平或上升，得益于测试时计算的增加。幸而，从NVIDIA、Google到DeepSeek、Kimi等机构都在宽松许可下发布优秀模型。小模型（数十亿参数以下）仍有微调潜力，但更复杂任务需要更大模型，它们有更高的能力上限、更好的数据效率和更少的灾难性遗忘，代价是更多VRAM和带宽。一旦训练跨越多个GPU节点，训练器与rollout引擎间的权重同步成为瓶颈。LoRA、异步RL或联合部署等技术各有权衡，但训练集群昂贵，每闲置一秒都耗费数美分。

同一集群内，RDMA（远程直接内存访问）可将训练速度提升100倍。例如，Qwen3 8B模型的全权重传输在RDMA下仅需41毫秒，而TCP需2.62秒；GLM 4.7（约355B参数）从114.67秒降至1.79秒。在非联合RL中，RDMA不可用，但增量压缩可将WAN传输时间减少98%，如Kimi K2.6（约1T参数）从480秒降至9.6秒。

团队常陷入三个问题：维护胶水代码（集成组件的额外工作）、排队等待集群时间、GPU利用率不足。Modal通过统一基础设施抽象层解决这些问题。用户只需几行代码即可启动RDMA连接的GPU集群，内置可观测性、容错和自动扩缩。Sandboxes以毫秒级启动，支持每秒数千个容器并发，确保GPU始终忙碌。正确调整沙箱缓冲区大小至关重要：过大则浪费计算，过小则阻塞GPU。一般经验是每轮rollout至少维护一个沙箱，并考虑错误率。

Modal押注开源，因为成功的团队几乎都基于veRL、OpenRLHF等开源框架，这些框架已在数十万GPU小时中得到验证。Modal不仅支持这些框架，还将改进（如增量压缩）上游贡献，并开源了FlashAttention 4和SGLang的改进。他们本可以构建闭源托管服务，但选择了开源，因为RL生态系统变化太快，封闭产品难以跟上。Modal的价值不是拥有训练循环，而是提供从Python文件到数千GPU的最简洁路径。

总之，用户可以在Modal上创建训练任务，在RDMA连接的Clustered Functions上运行经过验证的框架，在数千个并发Sandboxes中编排环境，并将权重存储在分布式Volumes中用于后续评估和上线。他们可以安心迭代，因为基础设施会为他们处理一切。