2026-05-29 09:00 UTC+9サイト内リライト3 分で読了更新: 2026-06-30 22:03 UTC+9

強化学習はインフラストラクチャの問題である

本稿では、大規模言語モデルの後学習における強化学習の実践について説明し、現在のボトルネックはアルゴリズムではなくインフラストラクチャであると指摘します。Modalは大規模なRL後学習の経験を共有し、オープンソースライブラリがマルチノードトレーニング、環境管理、GPU利用率などの主要な問題を解決する方法を紹介します。

ソースModal Blog

記事インテリジェンス

エンジニア上級

要点

強化学習によるLLM後学習のボトルネックはインフラストラクチャであり、トレーニングエンジン、推論サンドボックス、環境分離が含まれる。
マルチノードトレーニングでは重み同期に時間がかかり、RDMAとデルタ圧縮が遅延を大幅に削減する。
ModalはClustered FunctionsとSandboxesでインフラ管理を簡素化し、迅速なイテレーションをサポートする。
オープンソースフレームワーク（veRL、OpenRLHFなど）とModalの貢献により、チームはアルゴリズム改善に集中できる。

重要な理由

このニュースが重要なのは、強化学習によるLLM後学習のボトルネックはインフラストラクチャであり、トレーニングエンジン、推論サンドボックス、環境分離が含まれるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

強化学習（RL）による大規模言語モデル（LLM）の後学習がModal上で急速に普及しています。Modalはさまざまな規模のチーム（研究ラボから確立された企業まで）が基盤モデルから最先端のコストパフォーマンスを達成するためのトレーニングシステムを構築するのを支援してきました。その過程で明らかになったのは、RLのボトルネックはアルゴリズムではなくインフラストラクチャだということです。

RLトレーニングループは三つの部分に分かれ、それぞれが独立して難しいインフラ問題です。第一に、数十億から数兆パラメータの基盤モデルを信頼性高く動かせるエンジンによるトレーニング（順伝播、逆伝播、重み更新）。第二に、最新のGPU1枚から数百枚で大規模モデルを光速に近い速度で提供できる高性能推論エンジンによるロールアウト。第三に、モデルのポリシーがアクションをロールアウトと一致するレートで同時実行できる分離環境（数千から数百万のコンテナ）。

過去1年で、マルチノードトレーニングが標準になりました。より多くのチームがオープンウェイトモデルを微調整し、AIをプロダクションに投入しています。同時に、テスト時計算への依存度が高まることで、プロプライエタリモデルのトークンコストは横ばいか増加しています。幸い、NVIDIA、Google、DeepSeek、Kimiなど多くの組織が寛容なライセンスで優れたモデルを公開しています。小規模モデル（10億パラメータ未満）にも微調整の可能性はありますが、複雑なタスクには大規模モデルが適しています。大規模モデルは能力の上限が高く、データ効率が良く、破滅的忘却が少ない反面、より多くのVRAMと帯域幅が必要です。トレーニングが複数のGPUノードにまたがると、トレーナーとロールアウトエンジン間の重み同期がボトルネックになります。LoRA、非同期RL、トレーナーとロールアウトのコロケーションなどの技術はそれぞれ異なるトレードオフで圧力を軽減しますが、それでもトレーニングクラスタは高価であり、アイドル秒ごとに数セントのコストがかかります。

同一クラスタ内でRDMAを使用すると、トレーニング速度が100倍向上します。たとえば、Qwen3 8Bモデルの全重み転送はRDMAで41ミリ秒ですが、TCPでは2.62秒です。GLM 4.7（約355Bパラメータ）は114.67秒から1.79秒に短縮されます。非結合型RLではRDMAが使えませんが、デルタ圧縮によりWAN経由の転送時間を最大98%削減できます。Kimi K2.6（約1Tパラメータ）は480秒から9.6秒になります。

チームは同じ三つの問題に直面しています：グルーコード（コンポーネント統合のための追加コード）の維持、クラスタ時間の待ち行列、GPUの未活用。Modalはこれらを解決します。数行のコードでRDMA接続のGPUクラスタを起動でき、組み込みの可観測性、耐障害性（リトライ、GPUヘルスチェック）、自動スケーリングを備えています。Sandboxesはミリ秒で起動し、毎秒数千のコンテナをスピンアップして最大100万の同時実行を維持できるため、GPUを常にビジー状態に保てます。サンドボックスバッファの適切なサイジングが重要で、大きすぎるとアイドルコストが発生し、小さすぎるとGPUをブロックします。経験則として、各ロールアウトにつき少なくとも1つのサンドボックスを維持し、エラー率も考慮します。

Modalはオープンソースに賭けています。成功しているチームはほぼ例外なく、veRL、OpenRLHFなどのオープンソースフレームワークからスタートしています。これらのフレームワークは実戦的なトレーニングランで検証され、数十万GPU時間にわたってストレステストされています。Modalはこれらのフレームワークをサポートし、デルタ圧縮などの改善を上流に貢献し、FlashAttention 4やSGLangの改良もオープンソース化しています。彼らはクローズドソースのマネージドサービスを構築することもできましたが、RLエコシステムの変化が速すぎて静的プロダクトでは追いつけないため、オープンソースの道を選びました。Modalの価値はトレーニングループを所有して囲い込みすることではなく、Pythonファイルから数千のGPUへの最もクリーンなパスを提供することにあります。

ユーザーはModal上で、RDMA接続のClustered Functions上で検証済みフレームワークを実行し、数千の同時Sandboxesで環境をオーケストレーションし、重みを分散Volumesに保存して下流の評価とプロダクション昇格を行うことができます。インフラストラクチャがすべてを処理してくれるため、安心してイテレーションを重ねられます。