AI News HubLIVE
サイト内リライト4 分で読了

Applied Computeにおける強化学習のスケーリング

Applied Computeは、DoorDash、Cognition、Mercorなどの企業向けに強化学習を用いてカスタムAIエージェントを訓練し、Modal上で運用しています。その核心理念は「特定知能」であり、専有データで訓練し、使用ごとに改善されます。本稿では、RLトレーニングループ、インフラストラクチャの選択、Modalが提供する柔軟性、パフォーマンス、信頼性について説明します。

ソースModal Blog

Applied Computeは、DoorDash、Cognition、Mercorなどの企業向けにカスタムAIエージェントを訓練する会社です。創業チームはOpenAIのCodexおよびo1プロジェクトの出身で、彼らは「フロンティアモデルがコモディティ化するにつれ、競争の層はポストトレーニングに移行する」というテーゼに基づいて会社を設立しました。報酬関数、評価、継続的学習ループを自社で持つ企業が、そうでない企業をリードするという考えです。彼らはこれを「特定知能」と呼び、Modalがそのミッションを支援しています。

Applied Computeは「特定知能」を持つエージェントを構築します。これは、特定の企業向けに構築され、専有データで訓練され、使用されるたびに改善されるAIです。中核的な訓練メカニズムは強化学習(RL)です。RLは、モデルに再現可能な環境でタスクを何度も試行させ、各試行を報酬関数でスコアリングし、報酬関数が好む行動に向けて重みを更新します。DoorDashの場合は、写真に撮られたメニューを摂取し、DoorDashが本番環境で使用する構造化されたストアフロント表現を生成する、最先端のマーチャントオンボーディングモデルを訓練しました。Cognitionの場合は、開発者がコミットを保存した数秒以内に問題を表面化するカスタムバグ捕捉エージェントを訓練しました。

適切なインフラストラクチャの選択は重要です。典型的なRL訓練ループには、継続的に連携する必要がある3つのコンポーネントがあります。ロールアウト(再現可能な環境内でタスクを試行)、評価(報酬関数に対して各試行をスコアリング)、推論(訓練されたモデルを本番環境で提供し、新しいトレースをキャプチャ)です。各コンポーネントは異なるインフラストラクチャプロファイルを持ちます。ロールアウトはバースト的でCPU負荷が高く、評価は大規模に並列処理され、推論はGPUへの最適化されたアクセスを必要とします。Modalは各フェーズが必要な方法で動作し、状態を共有し、ループをタイトに保つための適切なプリミティブを提供します。

プラットフォームを決定する前に、Applied Computeは市場のほぼすべてのサンドボックスおよび実行プロバイダーを評価しました。Modalは、ループの各層で適切なプリミティブを提供し、それらの間の境界を低コストに保つ唯一のオプションでした。Patil CEOは「Modalは明らかに非常に柔軟で、これらの複雑な環境を構築できる構造であり、パフォーマンスと信頼性に本当に焦点を当てている」と述べています。

RL訓練では、モデルにタスクを数千回並行して試行させ、各試行は独自のクリーンで一時的な環境内で行われます。これらの環境は重く、多くの場合、Salesforce、Slack、内部APIなどの本番システム全体を模倣し、エージェントが本番で遭遇する実際のサービスと区別できないほどの忠実度を持ちます。「エージェントを訓練する環境は、実際の作業を行う環境であるべきだ」とPatilは言います。訓練テストのミスマッチは、デプロイされたRLシステムで最も一貫した失敗モードの1つです。Modal Sandboxesは、高速起動、完全なファイルシステムとネットワークの分離、再生可能性のためのスナップショットセマンティクスを備えた一時的なコンテナを提供します。これにより、Applied Computeは、訓練ループが依存する決定性を維持しながら、任意に複雑な本番システムのモックを構築できる基盤を得られます。

パフォーマンスレイテンシも重要な要素です。ロールアウトでは、推論とサンドボックスを同時に実行する必要があります。トレーニング実行中に数千のサンドボックスが並行してスピンアップされると(多くの場合、1、2、3時間にわたって継続的に作業)、P50およびP90のスタートアップレイテンシは直接推論側のGPU使用率に変換されます。GPU時間はループの支配的なコストであり、サンドボックス初期化のミリ秒はアイドルアクセラレータのミリ秒です。Modalのプリビルドで積極的にキャッシュされたコンテナイメージとサブ秒のコールドスタートにより、トレーニングループはCPUバウンドではなくGPUバウンドに保たれ、これは深刻なRLワークロードに必要な動作領域です。

信頼性も同様に重要です。すべてのロールアウトは、単体テスト、エキスパート作成のルーブリック、またはLLM-as-judge実行を通じて評価され、同じ評価層が本番でも実行され、数千の同時トレースにわたってライブエージェントの動作をスコアリングします。この作業には大規模な並列CPU計算が必要です。Applied ComputeはModal Functionsを利用して、専用クラスターを必要とせずに低コストのサーバーレスファンアウトを提供しています。そのような同時実行性では、個々の障害は避けられません。関連するプロパティは、プラットフォームがどれだけ迅速に回復するかです。Modalの自動リトライ、呼び出しごとの分離、および管理されたスケジューリングにより、評価およびロールアウトレイヤーが動き続けます。

「すべての企業が、ソフトウェアスタックを構築したのと同じように、独自のインテリジェントスタックを構築し始めるでしょう」とPatilは信じています。フロンティアモデルはなくならないが、企業がポストトレーニング、継続的学習ループ、評価、および独自のデータパイプラインを所有し、AIを独自のものにするケースが増えるでしょう。Applied Computeは、それを実用的にするためのチームとプラットフォームを構築しており、一度に1社の顧客に研究者を組み込み、その組織的判断を報酬関数にエンコードし、結果のモデルが単なるツールではなく組織の一員のように振る舞うまでループを実行します。Modalは、Applied Computeがそのビジョンに向けて迅速に動くためのクラウド基盤を提供しています。数千の並列ロールアウトをGPUバウンドに保つほど高速で、任意に複雑な本番システムのモックをホストできるほど柔軟で、長時間の同時実行にわたって評価レイヤーを生かし続けるほど回復力があり、すべてRLループ全体で統一された環境で実現されています。