オートスケーリング・オートリサーチ:Modalでエージェントに弾力的なGPUを提供
ModalはAutoresearchと統合し、弾力的なGPUスケーリングを提供し、AIエージェントが動的に計算リソースをプロビジョニングできるようにします。Parameter Golfチャレンジでは、エージェントが238 GPU時間で113の実験を実行し、単一ワークステーション比で5倍の高速化を達成し、専用クラスターのリソースのごく一部しか使用しませんでした。
ModalとAutoresearchの組み合わせは、AI研究に新たな弾力的な計算能力をもたらします。Karpathy-sanがリリースしたAutoresearchツールにより、AIは自身の研究を加速できますが、同時に古くからの問題が浮上します:必要なときに計算リソースを割り当て、無駄を省く方法は?Modalが完璧な答えを提供します。Tony ChenはClaude CodeとModal Skillsを使用して、Parameter Golfチャレンジでこの能力を実証しました:15時間で、エージェントは113の実験を自律的に実行し、238 GPU時間を消費し、コアトレーニング実行は単一ワークステーションよりも5倍高速で、専用クラスターのリソースのごく一部しか使用しませんでした。
研究ワークロードの予測不可能性は常態です。研究者やエージェントは、ハイパーパラメータ探索のために同時に数十または数百のGPUを必要とし、次に1つのGPUでデバッグし、その後複数の8-GPUクラスターで検証するかもしれません—すべて同じ作業セッション内で。従来の「常時オン」予約はバースト容量を提供しますが、高コストです:エージェントが「思考中」の間も、アイドルクラスターに支払いが発生します。一方、単一インスタンスやワークステーションは安価で使いやすいですが、実験を直列に実行するため、イテレーション速度が低下します。Modalはカスタムサーバーレスランタイムにより、両方の長所を提供します:単一マシンの使いやすさとコスト管理、そして大型クラスターのバースト容量。
Modalは計算量の問題だけでなく、計算の種類の問題も解決します。CUDAエラーのデバッグには、エージェントが状態を検査し迅速に反復できるインタラクティブなサンドボックスが必要です。12時間のトレーニング実行には、リトライとチェックポイントを備えたフォールトトレラントなバッチジョブが必要です。ハイパーパラメータ探索には、多数の並列独立ジョブが必要です。従来のクラウドインフラストラクチャは、あなたとエージェントに1つのモードを選ばせ、それに固執させます。Modalは、エージェント自身がいつ、どれだけの計算を、どの種類の計算を使うかを決定し、インフラがそれに追随することを可能にします。
エージェントはトレーニングスクリプトを書き、@app.function(gpu='H100:8')デコレータを追加し、modal runで起動できます。バグがあれば、modal.Sandbox.create(gpu='H100:8')を呼び出してインタラクティブなサンドボックスを作成できます。どちらの場合も、GPUは数秒で起動し、単一GPUから数十または数百のGPUへのスケーリングはパラメータ変更だけです。作業が完了すると、自動的にリソースが解放されます—アイドルクラスターが一晩中実行されていたことによる驚きの請求書はありません。
OpenAIのParameter Golfチャレンジは、言語モデルを≤16 MBに圧縮し、8×H100上で10分以内に推論を完了し、1バイトあたりのビット数(BPB)を最小化することを求めます。エージェントはModalの弾力的なリソースプロビジョニングを活用し、自動的にスケーリングしました:探索段階では数十の安価な単一GPU実行を起動し、検証段階では5つの並列8×H100実験を実行し、デバッグ段階では直列実行に戻り、最後にゼロにスケールダウンしました。
第1段階:パイプライン検証。エージェントは単一GPUサンドボックスを起動し、800万パラメータモデルを1エポックトレーニングし、量子化して評価しました。4回のクイック実験に約1時間を費やし、パイプラインがエンドツーエンドで機能することを確認し、BPBは1.42でした。この段階では加速はありませんでした(わずかなGPUしか使用しなかったため)が、効率は非常に高く、40-GPUクラスターと比較して大幅なコスト削減(クラスターの98%がアイドル状態)を実現しました。
第2段階:広範な探索。パイプラインが機能するようになったため、エージェントはハイパーパラメータ空間を探索する必要がありました:モデルサイズ、学習率、シーケンス長、トレーニング期間。約40の独立した単一GPUサンドボックスを起動し—それぞれ異なるハイパーパラメータの組み合わせで、各実験は1回のmodal.Sandbox.create(gpu='H100')呼び出しでプロビジョニングされました。広範な探索全体は36分のウォールタイムで完了しました。その後、最も有望なモデルサイズと学習率に焦点を当てた23の単一GPU実験と、4つのより野心的な実行に絞り込み、BPBは1.40から1.34に低下しました。探索段階は合計約14 GPU時間、68の実験で構成されました。ワークステーションと比較して、ピーク加速は1.25倍(40分 vs 3時間)で、効率の節約は顕著でした。
第3段階:大規模検証。真夜中までに、エージェントは最適なアーキテクチャの明確なイメージを持ち、本格的な検証が必要でした。単一GPUから実験あたり8×H100にスケールアップしました—gpu='H100'をgpu='H100:8'に変更するだけです。5つの最適構成を並行して実行し、5×8×H100、合計40 GPUを使用し、BPBは1.34から1.14に低下しました。ワークステーションと比較して、5倍の加速(4時間 vs 20時間)を達成し、効率の節約は小さかったですが、現実のクラスターが完全に事前設定されることはほとんどありません。
第4段階:デバッグ。エージェントはボトルネックに遭遇しました:量子化ステップがCPU上で45分以上かかり、提出がタイムアウトしました。まずタイムアウトを増やしてみました(45分、60分、90分、2時間)が、毎回タイムアウトし、5.5時間と60 GPU時間を費やしました。その後、アプローチを完全に変更し、量子化ステップをGPU上で実行するように書き換えました。次の実験は合計52分(トレーニングと量子化を含む)で完了しました。この段階での加速は控えめでしたが(1.25倍)、効率の節約は顕著でした。
第5段階:最適化と完了。パイプラインが正常に動作するようになったため、エージェントは最適化フェーズに入りました。まず検証(2つの並列8×H100実験、BPB 1.1420)を実行し、その後5つの並列8×H100実験に展開—40 GPUを同時に使用し、異なるアーキテクチャ、学習率スケジュール、正則化、データ混合戦略をテストしました。BPBは3ラウンドの最適化で徐々に低下しました:1.1230、1.1217、1.1206。最終ラウンドの4×8×H100は1.1220で戻ってきました—わずかに悪化。エージェントは収穫逓減を認識し、ゼロにスケールダウンして停止しました。この段階では、加速3.8倍、効率節約1.3倍を達成しました。
Modalは、研究と規模が必ずしも相反するものではないことを証明しました。弾力的なスケーリングにより、エージェントは必要なときに爆発的な計算能力を得て、不要なときは自動的に解放するため、高速なイテレーションとコスト効率を同時に実現できます。Modal Skillsをエージェントに組み込み、AI研究の無限の可能性を探求してみてください。