AI News HubLIVE
站内改写

Trajectory 釋出用於持續學習的併發多 LoRA 訓練堆疊,實驗吞吐量提升 2.81 倍

Trajectory 與 UC Berkeley Sky Lab 和 Anyscale 合作,構建了一個用於持續學習的併發多 LoRA 訓練堆疊。它將每個 RL 實驗對映到常熱引擎上的專用 LoRA 介面卡,報告端到端實驗吞吐量比單租戶基線提升 2.81 倍,且獎勵無退化。程式碼已在 NovaSky-AI/SkyRL 開源。

Trajectory 團隊與 UC Berkeley Sky Lab 和 Anyscale 合作,釋出了一種用於持續學習的併發多 LoRA 訓練堆疊,稱為 Continuous Multi-LoRA Training (C-LoRA)。該堆疊報告了 2.81 倍的端到端實驗吞吐量提升,對比的是單租戶訓練框架,且訓練獎勵無退化。所有訓練程式碼已在 NovaSky-AI/SkyRL GitHub 倉庫開源。

大多數語言模型以不連續跳躍的方式改進:團隊收集資料、訓練、釋出新版本,這個過程需要數月,並且對使用者可能產生顯著或災難性的行為變化。Trajectory 希望用持續學習取代這一迴圈。

持續學習要求模型從即時反饋和生產互動中更新。例如,編碼代理可以在開發者糾正其工作時學習工程模式;支援代理可以在操作員處理困難工單時解決疑難問題。然而,大多數訓練基礎設施仍然假設線性生命週期:團隊分配 GPU,初始化模型,執行作業,然後關閉。持續學習改變了這種關係:當生產互動成為訓練輸入,訓練就變成了即時系統的一部分。

現代強化學習訓練歸結為三個核心原語:取樣器從當前策略模型生成軌跡;訓練器計算梯度並更新策略權重;引數同步將更新後的權重廣播回推理工作器。Trajectory 的方法 C-LoRA 將每個實驗對映到溫的多租戶引擎上的專用 LoRA 介面卡。

團隊識別出傳統堆疊的四個低效點:一是冷啟動慢,每次序列作業重新載入檢查點、初始化分散式執行時、預熱推理引擎,對於大模型這一步可能超過 30 分鐘;二是強化學習記憶體密集,前沿模型如 Qwen3.5-397B 可能需要多達八個 H200 節點才能裝入記憶體,LoRA 透過凍結基模型只訓練小的介面卡權重將記憶體使用降低一個數量級;三是傳統堆疊是單租戶的,一次只執行一個實驗,多 LoRA 將每個實驗對映到一個介面卡,將吞吐量複用 N 倍;四是作業利用率低,訓練器和推理引擎互相等待,多 LoRA 在作業間負載均衡以填充空閒容量。

大部分吞吐量提升來自推理。在 vLLM 中,所有介面卡熱載入在 GPU 記憶體中,解碼步驟可以將來自不同介面卡的令牌混合在同一批次中。關鍵使能者是 SGMV 解碼核心,它將每個介面卡的矩陣向量工作融合為每個解碼步驟的一次 GPU 啟動。每個最佳化步驟後,更新的 LoRA 權重原地載入到推理引擎,排程器不凍結,因此其他租戶繼續解碼。

訓練方式不同:一個活動的 LoRA 介面卡在 GPU 上訓練,其餘固定在 CPU 記憶體中。每個租戶的狀態儲存在 AdapterStore 中,包含 LoRA 引數、FP32 主權重、最佳化器狀態和梯度緩衝區。引擎將一個租戶的狀態交換到 GPU,執行一次前向-後向傳遞,然後交換回去。這個訓練路徑仍然是單介面卡的,推理的併發增益尚未應用於訓練。

Trajectory 在單個 H200 節點上使用 Qwen3-4B-Instruct-2507 進行測試,在 GSM8K 上以代理設定執行同步強化學習。團隊將 GSM8K 重新定義為工具使用學習任務:模型決定何時呼叫 Calculator 和 Final Answer 工具,只有當用正確答案呼叫 Final Answer 時獎勵為 1.0。策略從第 0 步接近 40% 的準確率開始,透過正確的學習演算法,到第 9 步超過 90%。

團隊擴充套件到八個併發多 LoRA 執行。最終實驗時間在 N=8 時達到 5433 秒,加速 2.81 倍。八個併發實驗在三個序列執行背靠背完成之前完成。平均實驗時間在 N=4 時達到峰值,加速 1.88 倍。每個併發級別在第 9 步時 reward_accuracy 均超過 90%。

吞吐量提升的代價是每步延遲增加。隨著 N 增長,首次實驗時間和步時間退化。在 N=8 時,第一個序列實驗快 1.97 倍,平均步時間從 191 秒增加到 500 秒,僅慢 2.62 倍。大部分增加來自 rollout 時間,從 162 秒增長到 401 秒,約佔增加的 77%。在 N=2 時,負載加倍僅增加 15% 的 rollout 時間,這是多 LoRA 的理想情況。在更困難的工作負載 τ-bench retail 上,使用 NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 MoE 模型,N=2 在 10 步內快 1.28 倍,每租戶步時間增加 1.57 倍。

主要優勢包括:八併發時端到端實驗吞吐量提升 2.81 倍;無準確率退化,執行跟蹤序列基線在最終步驟 ±1σ 內;LoRA 相比全微調將記憶體降低一個數量級;完全開源在 NovaSky-AI/SkyRL。侷限性包括:隨著 N 增長,每步延遲和首次實驗時間退化;訓練仍然在租戶間序列化,只有推理是多路複用的;主要在中型模型上測試,未在引數規模前沿模型上測試;設定需要 8× H100/H200 節點和 Megatron 構建。

關鍵要點:Trajectory 構建了用於持續學習的併發多 LoRA 強化學習訓練堆疊,開源在 NovaSky-AI/SkyRL;報告 2.81 倍端到端實驗吞吐量提升,無獎勵退化;每個實驗對映到常熱引擎上的專用 LoRA 介面卡,透過 N 倍複用吞吐量;大部分增益來自 vLLM 多 LoRA 推理(透過 SGMV 解碼核心),訓練保持單介面卡;取捨是每步延遲,N=8 時步時間從 191 秒增加到 500 秒。