AI News HubLIVE
站内改写

Trajectory 發佈用於持續學習的併發多 LoRA 訓練堆棧,實驗吞吐量提升 2.81 倍

Trajectory 與 UC Berkeley Sky Lab 和 Anyscale 合作,構建了一個用於持續學習的併發多 LoRA 訓練堆棧。它將每個 RL 實驗映射到常熱引擎上的專用 LoRA 適配器,報告端到端實驗吞吐量比單租户基線提升 2.81 倍,且獎勵無退化。代碼已在 NovaSky-AI/SkyRL 開源。

Trajectory 團隊與 UC Berkeley Sky Lab 和 Anyscale 合作,發佈了一種用於持續學習的併發多 LoRA 訓練堆棧,稱為 Continuous Multi-LoRA Training (C-LoRA)。該堆棧報告了 2.81 倍的端到端實驗吞吐量提升,對比的是單租户訓練框架,且訓練獎勵無退化。所有訓練代碼已在 NovaSky-AI/SkyRL GitHub 倉庫開源。

大多數語言模型以不連續跳躍的方式改進:團隊收集數據、訓練、發佈新版本,這個過程需要數月,並且對用户可能產生顯著或災難性的行為變化。Trajectory 希望用持續學習取代這一循環。

持續學習要求模型從實時反饋和生產交互中更新。例如,編碼代理可以在開發者糾正其工作時學習工程模式;支持代理可以在操作員處理困難工單時解決疑難問題。然而,大多數訓練基礎設施仍然假設線性生命週期:團隊分配 GPU,初始化模型,運行作業,然後關閉。持續學習改變了這種關係:當生產交互成為訓練輸入,訓練就變成了實時系統的一部分。

現代強化學習訓練歸結為三個核心原語:採樣器從當前策略模型生成軌跡;訓練器計算梯度並更新策略權重;參數同步將更新後的權重廣播回推理工作器。Trajectory 的方法 C-LoRA 將每個實驗映射到温的多租户引擎上的專用 LoRA 適配器。

團隊識別出傳統堆棧的四個低效點:一是冷啓動慢,每次串行作業重新加載檢查點、初始化分佈式運行時、預熱推理引擎,對於大模型這一步可能超過 30 分鐘;二是強化學習內存密集,前沿模型如 Qwen3.5-397B 可能需要多達八個 H200 節點才能裝入內存,LoRA 通過凍結基模型只訓練小的適配器權重將內存使用降低一個數量級;三是傳統堆棧是單租户的,一次只運行一個實驗,多 LoRA 將每個實驗映射到一個適配器,將吞吐量複用 N 倍;四是作業利用率低,訓練器和推理引擎互相等待,多 LoRA 在作業間負載均衡以填充空閒容量。

大部分吞吐量提升來自推理。在 vLLM 中,所有適配器熱加載在 GPU 內存中,解碼步驟可以將來自不同適配器的令牌混合在同一批次中。關鍵使能者是 SGMV 解碼內核,它將每個適配器的矩陣向量工作融合為每個解碼步驟的一次 GPU 啓動。每個優化步驟後,更新的 LoRA 權重原地加載到推理引擎,調度器不凍結,因此其他租户繼續解碼。

訓練方式不同:一個活動的 LoRA 適配器在 GPU 上訓練,其餘固定在 CPU 內存中。每個租户的狀態保存在 AdapterStore 中,包含 LoRA 參數、FP32 主權重、優化器狀態和梯度緩衝區。引擎將一個租户的狀態交換到 GPU,運行一次前向-後向傳遞,然後交換回去。這個訓練路徑仍然是單適配器的,推理的併發增益尚未應用於訓練。

Trajectory 在單個 H200 節點上使用 Qwen3-4B-Instruct-2507 進行測試,在 GSM8K 上以代理設置運行同步強化學習。團隊將 GSM8K 重新定義為工具使用學習任務:模型決定何時調用 Calculator 和 Final Answer 工具,只有當用正確答案調用 Final Answer 時獎勵為 1.0。策略從第 0 步接近 40% 的準確率開始,通過正確的學習算法,到第 9 步超過 90%。

團隊擴展到八個併發多 LoRA 運行。最終實驗時間在 N=8 時達到 5433 秒,加速 2.81 倍。八個併發實驗在三個串行運行背靠背完成之前完成。平均實驗時間在 N=4 時達到峯值,加速 1.88 倍。每個併發級別在第 9 步時 reward_accuracy 均超過 90%。

吞吐量提升的代價是每步延遲增加。隨着 N 增長,首次實驗時間和步時間退化。在 N=8 時,第一個串行實驗快 1.97 倍,平均步時間從 191 秒增加到 500 秒,僅慢 2.62 倍。大部分增加來自 rollout 時間,從 162 秒增長到 401 秒,約佔增加的 77%。在 N=2 時,負載加倍僅增加 15% 的 rollout 時間,這是多 LoRA 的理想情況。在更困難的工作負載 τ-bench retail 上,使用 NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 MoE 模型,N=2 在 10 步內快 1.28 倍,每租户步時間增加 1.57 倍。

主要優勢包括:八併發時端到端實驗吞吐量提升 2.81 倍;無準確率退化,運行跟蹤串行基線在最終步驟 ±1σ 內;LoRA 相比全微調將內存降低一個數量級;完全開源在 NovaSky-AI/SkyRL。侷限性包括:隨着 N 增長,每步延遲和首次實驗時間退化;訓練仍然在租户間串行化,只有推理是多路複用的;主要在中型模型上測試,未在參數規模前沿模型上測試;設置需要 8× H100/H200 節點和 Megatron 構建。

關鍵要點:Trajectory 構建了用於持續學習的併發多 LoRA 強化學習訓練堆棧,開源在 NovaSky-AI/SkyRL;報告 2.81 倍端到端實驗吞吐量提升,無獎勵退化;每個實驗映射到常熱引擎上的專用 LoRA 適配器,通過 N 倍複用吞吐量;大部分增益來自 vLLM 多 LoRA 推理(通過 SGMV 解碼內核),訓練保持單適配器;取捨是每步延遲,N=8 時步時間從 191 秒增加到 500 秒。