2026-05-31 10:04 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

Trajectory 发布用于持续学习的并发多 LoRA 训练堆栈，实验吞吐量提升 2.81 倍

Trajectory 与 UC Berkeley Sky Lab 和 Anyscale 合作，构建了一个用于持续学习的并发多 LoRA 训练堆栈。它将每个 RL 实验映射到常热引擎上的专用 LoRA 适配器，报告端到端实验吞吐量比单租户基线提升 2.81 倍，且奖励无退化。代码已在 NovaSky-AI/SkyRL 开源。

来源MarkTechPost作者: Michal Sutter

Trajectory 团队与 UC Berkeley Sky Lab 和 Anyscale 合作，发布了一种用于持续学习的并发多 LoRA 训练堆栈，称为 Continuous Multi-LoRA Training (C-LoRA)。该堆栈报告了 2.81 倍的端到端实验吞吐量提升，对比的是单租户训练框架，且训练奖励无退化。所有训练代码已在 NovaSky-AI/SkyRL GitHub 仓库开源。

大多数语言模型以不连续跳跃的方式改进：团队收集数据、训练、发布新版本，这个过程需要数月，并且对用户可能产生显著或灾难性的行为变化。Trajectory 希望用持续学习取代这一循环。

持续学习要求模型从实时反馈和生产交互中更新。例如，编码代理可以在开发者纠正其工作时学习工程模式；支持代理可以在操作员处理困难工单时解决疑难问题。然而，大多数训练基础设施仍然假设线性生命周期：团队分配 GPU，初始化模型，运行作业，然后关闭。持续学习改变了这种关系：当生产交互成为训练输入，训练就变成了实时系统的一部分。

现代强化学习训练归结为三个核心原语：采样器从当前策略模型生成轨迹；训练器计算梯度并更新策略权重；参数同步将更新后的权重广播回推理工作器。Trajectory 的方法 C-LoRA 将每个实验映射到温的多租户引擎上的专用 LoRA 适配器。

团队识别出传统堆栈的四个低效点：一是冷启动慢，每次串行作业重新加载检查点、初始化分布式运行时、预热推理引擎，对于大模型这一步可能超过 30 分钟；二是强化学习内存密集，前沿模型如 Qwen3.5-397B 可能需要多达八个 H200 节点才能装入内存，LoRA 通过冻结基模型只训练小的适配器权重将内存使用降低一个数量级；三是传统堆栈是单租户的，一次只运行一个实验，多 LoRA 将每个实验映射到一个适配器，将吞吐量复用 N 倍；四是作业利用率低，训练器和推理引擎互相等待，多 LoRA 在作业间负载均衡以填充空闲容量。

大部分吞吐量提升来自推理。在 vLLM 中，所有适配器热加载在 GPU 内存中，解码步骤可以将来自不同适配器的令牌混合在同一批次中。关键使能者是 SGMV 解码内核，它将每个适配器的矩阵向量工作融合为每个解码步骤的一次 GPU 启动。每个优化步骤后，更新的 LoRA 权重原地加载到推理引擎，调度器不冻结，因此其他租户继续解码。

训练方式不同：一个活动的 LoRA 适配器在 GPU 上训练，其余固定在 CPU 内存中。每个租户的状态保存在 AdapterStore 中，包含 LoRA 参数、FP32 主权重、优化器状态和梯度缓冲区。引擎将一个租户的状态交换到 GPU，运行一次前向-后向传递，然后交换回去。这个训练路径仍然是单适配器的，推理的并发增益尚未应用于训练。

Trajectory 在单个 H200 节点上使用 Qwen3-4B-Instruct-2507 进行测试，在 GSM8K 上以代理设置运行同步强化学习。团队将 GSM8K 重新定义为工具使用学习任务：模型决定何时调用 Calculator 和 Final Answer 工具，只有当用正确答案调用 Final Answer 时奖励为 1.0。策略从第 0 步接近 40% 的准确率开始，通过正确的学习算法，到第 9 步超过 90%。

团队扩展到八个并发多 LoRA 运行。最终实验时间在 N=8 时达到 5433 秒，加速 2.81 倍。八个并发实验在三个串行运行背靠背完成之前完成。平均实验时间在 N=4 时达到峰值，加速 1.88 倍。每个并发级别在第 9 步时 reward_accuracy 均超过 90%。

吞吐量提升的代价是每步延迟增加。随着 N 增长，首次实验时间和步时间退化。在 N=8 时，第一个串行实验快 1.97 倍，平均步时间从 191 秒增加到 500 秒，仅慢 2.62 倍。大部分增加来自 rollout 时间，从 162 秒增长到 401 秒，约占增加的 77%。在 N=2 时，负载加倍仅增加 15% 的 rollout 时间，这是多 LoRA 的理想情况。在更困难的工作负载 τ-bench retail 上，使用 NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 MoE 模型，N=2 在 10 步内快 1.28 倍，每租户步时间增加 1.57 倍。

主要优势包括：八并发时端到端实验吞吐量提升 2.81 倍；无准确率退化，运行跟踪串行基线在最终步骤 ±1σ 内；LoRA 相比全微调将内存降低一个数量级；完全开源在 NovaSky-AI/SkyRL。局限性包括：随着 N 增长，每步延迟和首次实验时间退化；训练仍然在租户间串行化，只有推理是多路复用的；主要在中型模型上测试，未在参数规模前沿模型上测试；设置需要 8× H100/H200 节点和 Megatron 构建。

关键要点：Trajectory 构建了用于持续学习的并发多 LoRA 强化学习训练堆栈，开源在 NovaSky-AI/SkyRL；报告 2.81 倍端到端实验吞吐量提升，无奖励退化；每个实验映射到常热引擎上的专用 LoRA 适配器，通过 N 倍复用吞吐量；大部分增益来自 vLLM 多 LoRA 推理（通过 SGMV 解码内核），训练保持单适配器；取舍是每步延迟，N=8 时步时间从 191 秒增加到 500 秒。