AI News HubLIVE
站内改写

Trajectory 发布用于持续学习的并发多 LoRA 训练堆栈,实验吞吐量提升 2.81 倍

Trajectory 与 UC Berkeley Sky Lab 和 Anyscale 合作,构建了一个用于持续学习的并发多 LoRA 训练堆栈。它将每个 RL 实验映射到常热引擎上的专用 LoRA 适配器,报告端到端实验吞吐量比单租户基线提升 2.81 倍,且奖励无退化。代码已在 NovaSky-AI/SkyRL 开源。

Trajectory 团队与 UC Berkeley Sky Lab 和 Anyscale 合作,发布了一种用于持续学习的并发多 LoRA 训练堆栈,称为 Continuous Multi-LoRA Training (C-LoRA)。该堆栈报告了 2.81 倍的端到端实验吞吐量提升,对比的是单租户训练框架,且训练奖励无退化。所有训练代码已在 NovaSky-AI/SkyRL GitHub 仓库开源。

大多数语言模型以不连续跳跃的方式改进:团队收集数据、训练、发布新版本,这个过程需要数月,并且对用户可能产生显著或灾难性的行为变化。Trajectory 希望用持续学习取代这一循环。

持续学习要求模型从实时反馈和生产交互中更新。例如,编码代理可以在开发者纠正其工作时学习工程模式;支持代理可以在操作员处理困难工单时解决疑难问题。然而,大多数训练基础设施仍然假设线性生命周期:团队分配 GPU,初始化模型,运行作业,然后关闭。持续学习改变了这种关系:当生产交互成为训练输入,训练就变成了实时系统的一部分。

现代强化学习训练归结为三个核心原语:采样器从当前策略模型生成轨迹;训练器计算梯度并更新策略权重;参数同步将更新后的权重广播回推理工作器。Trajectory 的方法 C-LoRA 将每个实验映射到温的多租户引擎上的专用 LoRA 适配器。

团队识别出传统堆栈的四个低效点:一是冷启动慢,每次串行作业重新加载检查点、初始化分布式运行时、预热推理引擎,对于大模型这一步可能超过 30 分钟;二是强化学习内存密集,前沿模型如 Qwen3.5-397B 可能需要多达八个 H200 节点才能装入内存,LoRA 通过冻结基模型只训练小的适配器权重将内存使用降低一个数量级;三是传统堆栈是单租户的,一次只运行一个实验,多 LoRA 将每个实验映射到一个适配器,将吞吐量复用 N 倍;四是作业利用率低,训练器和推理引擎互相等待,多 LoRA 在作业间负载均衡以填充空闲容量。

大部分吞吐量提升来自推理。在 vLLM 中,所有适配器热加载在 GPU 内存中,解码步骤可以将来自不同适配器的令牌混合在同一批次中。关键使能者是 SGMV 解码内核,它将每个适配器的矩阵向量工作融合为每个解码步骤的一次 GPU 启动。每个优化步骤后,更新的 LoRA 权重原地加载到推理引擎,调度器不冻结,因此其他租户继续解码。

训练方式不同:一个活动的 LoRA 适配器在 GPU 上训练,其余固定在 CPU 内存中。每个租户的状态保存在 AdapterStore 中,包含 LoRA 参数、FP32 主权重、优化器状态和梯度缓冲区。引擎将一个租户的状态交换到 GPU,运行一次前向-后向传递,然后交换回去。这个训练路径仍然是单适配器的,推理的并发增益尚未应用于训练。

Trajectory 在单个 H200 节点上使用 Qwen3-4B-Instruct-2507 进行测试,在 GSM8K 上以代理设置运行同步强化学习。团队将 GSM8K 重新定义为工具使用学习任务:模型决定何时调用 Calculator 和 Final Answer 工具,只有当用正确答案调用 Final Answer 时奖励为 1.0。策略从第 0 步接近 40% 的准确率开始,通过正确的学习算法,到第 9 步超过 90%。

团队扩展到八个并发多 LoRA 运行。最终实验时间在 N=8 时达到 5433 秒,加速 2.81 倍。八个并发实验在三个串行运行背靠背完成之前完成。平均实验时间在 N=4 时达到峰值,加速 1.88 倍。每个并发级别在第 9 步时 reward_accuracy 均超过 90%。

吞吐量提升的代价是每步延迟增加。随着 N 增长,首次实验时间和步时间退化。在 N=8 时,第一个串行实验快 1.97 倍,平均步时间从 191 秒增加到 500 秒,仅慢 2.62 倍。大部分增加来自 rollout 时间,从 162 秒增长到 401 秒,约占增加的 77%。在 N=2 时,负载加倍仅增加 15% 的 rollout 时间,这是多 LoRA 的理想情况。在更困难的工作负载 τ-bench retail 上,使用 NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 MoE 模型,N=2 在 10 步内快 1.28 倍,每租户步时间增加 1.57 倍。

主要优势包括:八并发时端到端实验吞吐量提升 2.81 倍;无准确率退化,运行跟踪串行基线在最终步骤 ±1σ 内;LoRA 相比全微调将内存降低一个数量级;完全开源在 NovaSky-AI/SkyRL。局限性包括:随着 N 增长,每步延迟和首次实验时间退化;训练仍然在租户间串行化,只有推理是多路复用的;主要在中型模型上测试,未在参数规模前沿模型上测试;设置需要 8× H100/H200 节点和 Megatron 构建。

关键要点:Trajectory 构建了用于持续学习的并发多 LoRA 强化学习训练堆栈,开源在 NovaSky-AI/SkyRL;报告 2.81 倍端到端实验吞吐量提升,无奖励退化;每个实验映射到常热引擎上的专用 LoRA 适配器,通过 N 倍复用吞吐量;大部分增益来自 vLLM 多 LoRA 推理(通过 SGMV 解码内核),训练保持单适配器;取舍是每步延迟,N=8 时步时间从 191 秒增加到 500 秒。