AI News HubLIVE
站内改写

强化学习是一个基础设施问题

本文探讨了强化学习在大型语言模型后训练中的实际应用,指出当前的瓶颈并非算法而是基础设施。Modal分享了大规模运行RL后训练的经验,介绍了其开源库如何帮助团队解决多节点训练、环境管理和GPU利用率等关键问题。

文章情报

工程师进阶

要点

  • 强化学习后训练LLM的瓶颈是基础设施,包括训练引擎、推理沙箱和环境隔离。
  • 多节点训练中,权重同步耗时巨大,RDMA和增量压缩显著降低延迟。
  • Modal通过Clustered Functions和Sandboxes简化基础设施管理,支持快速迭代。
  • 开源框架(如veRL、OpenRLHF)和Modal的贡献帮助团队专注于算法改进。

为什么重要

这条新闻值得关注,因为强化学习后训练LLM的瓶颈是基础设施,包括训练引擎、推理沙箱和环境隔离。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

强化学习(RL)在大型语言模型(LLM)的后训练中正迅速普及,Modal平台上的使用量激增。团队帮助了从研究实验室到大型企业的各类客户,构建训练系统以从基础模型中获得前沿性价比。然而,实际应用中的瓶颈并非算法,而是基础设施。RL训练循环可分为三个部分,每一部分都是独立且棘手的基础设施问题:首先,需要能够可靠运行前向传播、反向传播和权重更新的训练引擎,这涉及数十亿到数万亿参数;其次,从高性能推理引擎获取rollouts,这些引擎需在单卡或数百张最新GPU上以接近光速的速度服务模型;最后,隔离环境让模型策略以与rollouts匹配的一致速率并发执行动作,通常涉及数千到数百万个容器。

过去一年,多节点训练成为标配。更多团队使用开放权重模型进行微调,将AI投入生产而非仅仅制作演示。同时,前沿专有模型的token成本持平或上升,得益于测试时计算的增加。幸而,从NVIDIA、Google到DeepSeek、Kimi等机构都在宽松许可下发布优秀模型。小模型(数十亿参数以下)仍有微调潜力,但更复杂任务需要更大模型,它们有更高的能力上限、更好的数据效率和更少的灾难性遗忘,代价是更多VRAM和带宽。一旦训练跨越多个GPU节点,训练器与rollout引擎间的权重同步成为瓶颈。LoRA、异步RL或联合部署等技术各有权衡,但训练集群昂贵,每闲置一秒都耗费数美分。

同一集群内,RDMA(远程直接内存访问)可将训练速度提升100倍。例如,Qwen3 8B模型的全权重传输在RDMA下仅需41毫秒,而TCP需2.62秒;GLM 4.7(约355B参数)从114.67秒降至1.79秒。在非联合RL中,RDMA不可用,但增量压缩可将WAN传输时间减少98%,如Kimi K2.6(约1T参数)从480秒降至9.6秒。

团队常陷入三个问题:维护胶水代码(集成组件的额外工作)、排队等待集群时间、GPU利用率不足。Modal通过统一基础设施抽象层解决这些问题。用户只需几行代码即可启动RDMA连接的GPU集群,内置可观测性、容错和自动扩缩。Sandboxes以毫秒级启动,支持每秒数千个容器并发,确保GPU始终忙碌。正确调整沙箱缓冲区大小至关重要:过大则浪费计算,过小则阻塞GPU。一般经验是每轮rollout至少维护一个沙箱,并考虑错误率。

Modal押注开源,因为成功的团队几乎都基于veRL、OpenRLHF等开源框架,这些框架已在数十万GPU小时中得到验证。Modal不仅支持这些框架,还将改进(如增量压缩)上游贡献,并开源了FlashAttention 4和SGLang的改进。他们本可以构建闭源托管服务,但选择了开源,因为RL生态系统变化太快,封闭产品难以跟上。Modal的价值不是拥有训练循环,而是提供从Python文件到数千GPU的最简洁路径。

总之,用户可以在Modal上创建训练任务,在RDMA连接的Clustered Functions上运行经过验证的框架,在数千个并发Sandboxes中编排环境,并将权重存储在分布式Volumes中用于后续评估和上线。他们可以安心迭代,因为基础设施会为他们处理一切。