AI News HubLIVE
站内改写

Trajectory、継続学習のための同時マルチLoRAトレーニングスタックを発表、実験スループット2.81倍向上

TrajectoryはUC Berkeley Sky LabおよびAnyscaleと協力し、継続学習のための同時マルチLoRAトレーニングスタックを構築しました。各RL実験を常時稼働エンジン上の専用LoRAアダプターにマッピングし、シングルテナントベースラインと比較してエンドツーエンドの実験スループットが2.81倍向上し、報酬の低下はありません。コードはNovaSky-AI/SkyRLでオープンソース化されています。

TrajectoryチームはUC Berkeley Sky LabおよびAnyscaleと協力し、継続学習のための同時マルチLoRAトレーニングスタック「Continuous Multi-LoRA Training (C-LoRA)」を発表しました。このスタックは、シングルテナントトレーニングフレームワークと比較してエンドツーエンドの実験スループットが2.81倍向上し、トレーニング報酬の低下はありません。すべてのトレーニングコードはNovaSky-AI/SkyRL GitHubリポジトリでオープンソース化されています。

ほとんどの言語モデルは不連続なジャンプで改善されます。チームがデータを収集し、トレーニングし、新しいバージョンをリリースするまでには数ヶ月かかり、ユーザーにとって顕著または壊滅的な動作変化を引き起こす可能性があります。Trajectoryはこのサイクルを継続学習に置き換えたいと考えています。

継続学習では、モデルがライブフィードバックや本番環境でのインタラクションから更新される必要があります。例えば、コーディングエージェントは開発者がその作業を修正する際にエンジニアリングパターンを学習でき、サポートエージェントはオペレーターが困難なチケットに対処する際に問題を解決できます。しかし、ほとんどのトレーニングインフラは依然として線形のライフサイクルを想定しています。チームはGPUを割り当て、モデルを初期化し、ジョブを実行し、その後シャットダウンします。継続学習はこの関係を変えます。本番環境でのインタラクションがトレーニング入力になると、トレーニングはライブシステムの一部になります。

現代の強化学習トレーニングは3つの主要なプリミティブに帰着します。サンプラーは現在のポリシーモデルから軌跡を生成し、トレーナーは勾配を計算してポリシー重みを更新し、パラメータ同期は更新された重みを推論ワーカーにブロードキャストします。TrajectoryのアプローチC-LoRAは、各実験をウォームなマルチテナントエンジン上の専用LoRAアダプターにマッピングします。

チームは従来のスタックの4つの非効率性を特定しました。1つ目はコールドスタートの遅さです。シリアルジョブごとにチェックポイントの再読み込み、分散ランタイムの初期化、推論エンジンのウォームアップが必要で、大規模モデルでは1回の実行あたり30分を超えることがあります。2つ目は強化学習がメモリ集約型であることです。Qwen3.5-397Bのような最先端モデルは、メモリに収めるために最大8台のH200ノードを必要とする場合があります。LoRAはベースモデルを凍結し、小さなアダプター重みのみをトレーニングすることでメモリ使用量を一桁削減します。3つ目は従来のスタックがシングルテナントであることです。一度に1つの実験しか実行できません。マルチLoRAは各実験を1つのアダプターにマッピングし、スループットをN倍に多重化します。4つ目はジョブの利用率が低いことです。トレーナーと推論エンジンが互いに待機するため、マルチLoRAはジョブ間で負荷分散を行い、アイドル容量を埋めます。

スループットの向上の大部分は推論からもたらされます。vLLMでは、すべてのアダプターがGPUメモリにホットロードされ、デコードステップでは異なるアダプターからのトークンを同じバッチに混在させることができます。重要なイネーブラはSGMVデコードカーネルで、アダプターごとの行列ベクトル演算をデコードステップごとに1回のGPU起動に統合します。最適化ステップの後、更新されたLoRA重みは推論エンジンにインプレースでロードされ、スケジューラはフリーズしないため、他のテナントはデコードを続行できます。

トレーニングの仕組みは異なります。1つのアクティブなLoRAアダプターがGPU上でトレーニングされ、残りはピン留めされたCPUメモリに置かれます。各テナントの状態はAdapterStoreに保存され、LoRAパラメータ、FP32マスター重み、オプティマイザモーメント、勾配バッファが含まれます。エンジンは1つのテナントの状態をGPUにスワップし、1回の前方-後方パスを実行してからスワップバックします。このトレーニングパスは依然としてシングルアダプターであり、推論の並行性の利点はまだトレーニングには適用されていません。

Trajectoryは単一のH200ノード上でQwen3-4B-Instruct-2507を使用し、GSM8Kでエージェント設定の同期強化学習を実行してテストしました。チームはGSM8Kをツール使用学習タスクとして再定義しました。モデルはCalculatorとFinal Answerツールをいつ呼び出すかを決定し、Final Answerが正しい答えで呼び出された場合のみ報酬が1.0となります。ポリシーはステップ0で約40%の精度から始まり、適切な学習アルゴリズムにより、ステップ9までに90%を超えます。

チームは8つの同時マルチLoRA実行にスケールアップしました。N=8での最終実験時間は5433秒で、2.81倍の高速化を達成しました。8つの同時実行は、3つのシリアル実行が連続して終了する前に終了しました。平均実験時間はN=4でピークに達し、1.88倍の高速化でした。すべての並行レベルで、ステップ9までにreward_accuracyが90%を超えました。

スループット向上の代償として、ステップあたりのレイテンシが増加します。Nが増加するにつれて、最初の実験時間とステップ時間が劣化します。N=8では、最初のシリアル実験は1.97倍高速ですが、平均ステップ時間は191秒から500秒に増加し、2.62倍遅くなります。この増加の大部分はロールアウト時間によるもので、162秒から401秒に増加し、増加の約77%を占めます。N=2では、負荷を2倍にしてもロールアウト時間は15%しか増加せず、これがマルチLoRAの理想的なケースです。よりハードなワークロードであるτ-bench retailで、NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 MoEモデルを使用した場合、N=2では10ステップが1.28倍高速になり、テナントあたりのステップ時間は1.57倍増加しました。

主な強みとしては、8並列時のエンドツーエンド実験スループットが2.81倍、精度の低下なし(最終ステップでシリアルベースラインの±1σ以内)、LoRAによるメモリ削減(フルファインチューニング比で一桁)、NovaSky-AI/SkyRLでの完全オープンソース化が挙げられます。弱みとしては、N増加に伴うステップレイテンシと最初の実験時間の劣化、トレーニングは依然としてテナント間でシリアル化(推論のみ多重化)、主に中規模モデルでのテスト(フロンティアスケールパラメータ未検証)、セットアップに8×H100/H200ノードとMegatronビルドが必要な点が挙げられます。

主なポイント:Trajectoryは継続学習のための同時マルチLoRA強化学習トレーニングスタックを構築し、NovaSky-AI/SkyRLでオープンソース化。シングルテナントベースライン比2.81倍のエンドツーエンド実験スループット向上、報酬低下なし。各実験を常時稼働エンジン上の専用LoRAアダプターにマッピングし、N倍のスループット多重化。ほとんどの利得はvLLMマルチLoRA推論(SGMVデコードカーネル経由)によるもので、トレーニングはシングルアダプターのまま。トレードオフとして、N=8でステップ時間が191秒から500秒に増加するステップレイテンシ。