2026-05-31 10:04 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Trajectory 發佈用於持續學習的併發多 LoRA 訓練堆棧，實驗吞吐量提升 2.81 倍

Trajectory 與 UC Berkeley Sky Lab 和 Anyscale 合作，構建了一個用於持續學習的併發多 LoRA 訓練堆棧。它將每個 RL 實驗映射到常熱引擎上的專用 LoRA 適配器，報告端到端實驗吞吐量比單租户基線提升 2.81 倍，且獎勵無退化。代碼已在 NovaSky-AI/SkyRL 開源。

來源MarkTechPost作者: Michal Sutter

Trajectory 團隊與 UC Berkeley Sky Lab 和 Anyscale 合作，發佈了一種用於持續學習的併發多 LoRA 訓練堆棧，稱為 Continuous Multi-LoRA Training (C-LoRA)。該堆棧報告了 2.81 倍的端到端實驗吞吐量提升，對比的是單租户訓練框架，且訓練獎勵無退化。所有訓練代碼已在 NovaSky-AI/SkyRL GitHub 倉庫開源。

大多數語言模型以不連續跳躍的方式改進：團隊收集數據、訓練、發佈新版本，這個過程需要數月，並且對用户可能產生顯著或災難性的行為變化。Trajectory 希望用持續學習取代這一循環。

持續學習要求模型從實時反饋和生產交互中更新。例如，編碼代理可以在開發者糾正其工作時學習工程模式；支持代理可以在操作員處理困難工單時解決疑難問題。然而，大多數訓練基礎設施仍然假設線性生命週期：團隊分配 GPU，初始化模型，運行作業，然後關閉。持續學習改變了這種關係：當生產交互成為訓練輸入，訓練就變成了實時系統的一部分。

現代強化學習訓練歸結為三個核心原語：採樣器從當前策略模型生成軌跡；訓練器計算梯度並更新策略權重；參數同步將更新後的權重廣播回推理工作器。Trajectory 的方法 C-LoRA 將每個實驗映射到温的多租户引擎上的專用 LoRA 適配器。

團隊識別出傳統堆棧的四個低效點：一是冷啓動慢，每次串行作業重新加載檢查點、初始化分佈式運行時、預熱推理引擎，對於大模型這一步可能超過 30 分鐘；二是強化學習內存密集，前沿模型如 Qwen3.5-397B 可能需要多達八個 H200 節點才能裝入內存，LoRA 通過凍結基模型只訓練小的適配器權重將內存使用降低一個數量級；三是傳統堆棧是單租户的，一次只運行一個實驗，多 LoRA 將每個實驗映射到一個適配器，將吞吐量複用 N 倍；四是作業利用率低，訓練器和推理引擎互相等待，多 LoRA 在作業間負載均衡以填充空閒容量。

大部分吞吐量提升來自推理。在 vLLM 中，所有適配器熱加載在 GPU 內存中，解碼步驟可以將來自不同適配器的令牌混合在同一批次中。關鍵使能者是 SGMV 解碼內核，它將每個適配器的矩陣向量工作融合為每個解碼步驟的一次 GPU 啓動。每個優化步驟後，更新的 LoRA 權重原地加載到推理引擎，調度器不凍結，因此其他租户繼續解碼。

訓練方式不同：一個活動的 LoRA 適配器在 GPU 上訓練，其餘固定在 CPU 內存中。每個租户的狀態保存在 AdapterStore 中，包含 LoRA 參數、FP32 主權重、優化器狀態和梯度緩衝區。引擎將一個租户的狀態交換到 GPU，運行一次前向-後向傳遞，然後交換回去。這個訓練路徑仍然是單適配器的，推理的併發增益尚未應用於訓練。

Trajectory 在單個 H200 節點上使用 Qwen3-4B-Instruct-2507 進行測試，在 GSM8K 上以代理設置運行同步強化學習。團隊將 GSM8K 重新定義為工具使用學習任務：模型決定何時調用 Calculator 和 Final Answer 工具，只有當用正確答案調用 Final Answer 時獎勵為 1.0。策略從第 0 步接近 40% 的準確率開始，通過正確的學習算法，到第 9 步超過 90%。

團隊擴展到八個併發多 LoRA 運行。最終實驗時間在 N=8 時達到 5433 秒，加速 2.81 倍。八個併發實驗在三個串行運行背靠背完成之前完成。平均實驗時間在 N=4 時達到峯值，加速 1.88 倍。每個併發級別在第 9 步時 reward_accuracy 均超過 90%。

吞吐量提升的代價是每步延遲增加。隨着 N 增長，首次實驗時間和步時間退化。在 N=8 時，第一個串行實驗快 1.97 倍，平均步時間從 191 秒增加到 500 秒，僅慢 2.62 倍。大部分增加來自 rollout 時間，從 162 秒增長到 401 秒，約佔增加的 77%。在 N=2 時，負載加倍僅增加 15% 的 rollout 時間，這是多 LoRA 的理想情況。在更困難的工作負載 τ-bench retail 上，使用 NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 MoE 模型，N=2 在 10 步內快 1.28 倍，每租户步時間增加 1.57 倍。

主要優勢包括：八併發時端到端實驗吞吐量提升 2.81 倍；無準確率退化，運行跟蹤串行基線在最終步驟 ±1σ 內；LoRA 相比全微調將內存降低一個數量級；完全開源在 NovaSky-AI/SkyRL。侷限性包括：隨着 N 增長，每步延遲和首次實驗時間退化；訓練仍然在租户間串行化，只有推理是多路複用的；主要在中型模型上測試，未在參數規模前沿模型上測試；設置需要 8× H100/H200 節點和 Megatron 構建。

關鍵要點：Trajectory 構建了用於持續學習的併發多 LoRA 強化學習訓練堆棧，開源在 NovaSky-AI/SkyRL；報告 2.81 倍端到端實驗吞吐量提升，無獎勵退化；每個實驗映射到常熱引擎上的專用 LoRA 適配器，通過 N 倍複用吞吐量；大部分增益來自 vLLM 多 LoRA 推理（通過 SGMV 解碼內核），訓練保持單適配器；取捨是每步延遲，N=8 時步時間從 191 秒增加到 500 秒。