Pingora、Envoy、Spannerを使ったサーバーレスサーバーのルーティング
Modal社が、LLM推論などのレイテンシに敏感なアプリケーション向けに設計された新たな超低遅延サーバーレス製品「Serverless Servers」の内部構造を解説。独自プロキシfprsをPingoraで構築し、Envoyをエッジに、Spannerを設定管理に用いるアーキテクチャの決定理由を詳述。
- Modalが超低遅延HTTP/WebSocket/gRPCトラフィック向けのServerless Serversを発表。
- Web Functionsとは異なり、キューイングとリトライを犠牲にして低遅延を実現。
投機的デコードで最先端の推論レイテンシを実現
ModalとDecagonは、投機的デコードを用いて推論レイテンシを100ミリ秒削減し、専用プロバイダを上回りました。本記事では、通信遅延、ホストオーバーヘッド、プリフィル遅延、デコード遅延の最適化を含む低レイテンシのプレイブックを詳述し、特にカスタム投機的デコードモデル(DFlash)による大きな成果に焦点を当てています。
- Modal Auto Endpointsは、Blackwell GPU、SGLangエンジン、Modalサーバを活用した投機的デコードにより低レイテンシを実現。
- 投機的デコードはトークン生成を並列化してデコード遅延を削減し、効率は受入長に依存。
Modal Auto Endpoints 発表:最適化された推論を真に所有する
Modal は Auto Endpoints をリリース。これはプロダクショングレードの LLM 推論へのセルフサービスの入口で、単一のコマンドで最先端のオープンモデルをデプロイし、推論コード、メトリクス、インフラを完全に制御できます。Modal の AI インフラプラットフォーム上に構築され、高性能オートスケーリング、カスタムコンテナランタイム、グローバル GPU 利用、および超低レイテンシルーティング(5ms オーバーヘッド)を実現する Modal Servers を備えています。トップチームの経験に基づく事前調整済みレシピと DFlash 投機的デコードを内蔵。将来は推論エンジニアリングの完全自動化を目指します。
- Auto Endpoints はオープンモデル(例:GLM 5.2)をワンコマンドでデプロイし、推論スタックを完全に所有。
- エンジンレベルの可観測性:サーバーおよび推論メトリクスを公開。
投機的デコードがすべて
Modalは投機的デコードに全力を注いでおり、これが最も重要な推論最適化手法であると主張しています。彼らはQwenモデル向けの最先端DFlash投機器をリリースし、5~20%の追加高速化を達成しました。本記事では、投機的デコードの原理、従来の最適化との比較、シミュレーションや数理モデルによる加速効果の説明を行っています。
- 投機的デコードは、高いインタラクティビティを実現する唯一のエンジン最適化であり、数倍の高速化が可能。
- ModalはZ Labと協力し、Qwenシリーズ向けのDFlash投機器をリリース、5~20%の追加高速化を達成。
強化学習はインフラストラクチャの問題である
本稿では、大規模言語モデルの後学習における強化学習の実践について説明し、現在のボトルネックはアルゴリズムではなくインフラストラクチャであると指摘します。Modalは大規模なRL後学習の経験を共有し、オープンソースライブラリがマルチノードトレーニング、環境管理、GPU利用率などの主要な問題を解決する方法を紹介します。
- 強化学習によるLLM後学習のボトルネックはインフラストラクチャであり、トレーニングエンジン、推論サンドボックス、環境分離が含まれる。
- マルチノードトレーニングでは重み同期に時間がかかり、RDMAとデルタ圧縮が遅延を大幅に削減する。
人間とエージェントのためのロールベースアクセス制御
Modal は、Team および Enterprise プランの全ユーザー向けに、Environment を基盤としたロールベースアクセス制御(RBAC)を導入し、人間と AI エージェントのきめ細かな権限管理を実現します。
- RBAC が Team および Enterprise プランの全ユーザーに提供開始。Environment をセキュリティ境界として活用。
- 制限付き Environment により、リソースのデプロイや管理ができるユーザーを正確に制御。
ModalのシリーズC:46.5億ドルの評価額で3.55億ドルを調達
Modalは、General CatalystとRedpointが主導するラウンドで、46.5億ドルの評価額で3.55億ドルを調達しました。同社は9月以降に5倍成長し、年換算収益が3億ドルを超えました。ModalはAIワークロード向けに構築されたクラウドプラットフォームで、弾力的な推論、エージェントランタイム、サンドボックスに焦点を当てています。資金は低レイテンシ推論、強化学習、エージェントコンピュートの拡大に使用されます。
- Modalは46.5億ドルの評価額で3.55億ドルを調達、General CatalystとRedpointが主導。
- 同社は9月以降に5倍成長し、年換算収益が3億ドルを超えた。
Applied Computeにおける強化学習のスケーリング
Applied Computeは、DoorDash、Cognition、Mercorなどの企業向けに強化学習を用いてカスタムAIエージェントを訓練し、Modal上で運用しています。その核心理念は「特定知能」であり、専有データで訓練し、使用ごとに改善されます。本稿では、RLトレーニングループ、インフラストラクチャの選択、Modalが提供する柔軟性、パフォーマンス、信頼性について説明します。
- Applied Computeはポストトレーニングに注力し、これが企業のAI競争における差別化要因であると考える。
- 強化学習を用いて「特定知能」を持つエージェントを訓練し、DoorDashのためのマーチャントオンボーディングモデルなどを最適化。
Claude Managed AgentsとModal Sandboxesの統合発表
AnthropicとModalは、Claude Managed AgentsとModal Sandboxesの統合を発表しました。これにより、開発者はカスタマイズ可能なサンドボックスでツール呼び出しを実行でき、高速起動、コスト効率、拡張性を実現します。Mason AI、DoorDash、Blendなどの初期採用者が利点を共有しています。
- Claude Managed AgentsがModal Sandboxesと統合し、カスタムでスケーラブルなエージェント実行が可能に。
- Modalは高速コールドスタート、カスタムイメージ、スナップショット、コスト効率の高いバースト料金を提供。
真のサーバーレスGPUを実現する方法
Modal は4つの主要技術により、GPU推論サーバーの起動時間を数十分から数十秒に短縮し、真のサーバーレスGPUを実現しました。
- アイドルGPUバッファでインスタンス割り当て遅延を排除
- カスタムコンテンツアドレス型ファイルシステムでコンテナイメージをオンデマンド読み込み
たった1つのPython辞書でマルチモーダル推論性能を10%以上向上
ModalチームはSGLangスケジューラのプロファイリングにより、CUDA IPCプールハンドルの重複オープンがボトルネックであることを発見。単純なPython辞書キャッシュに置き換えることで、Qwen2.5-VL-3Bモデルでスループット16.2%向上、レイテンシ10%以上削減を達成。この最適化はSGLang v0.5.10にマージされました。
- SGLangスケジューラはマルチモーダル入力処理で、CUDA IPCプールハンドルを繰り返し開くオーバーヘッドがあった。
- Python辞書によるハンドルキャッシュで不要な_new_shared_cuda呼び出しを排除。
Modal上での強化学習による定理証明ワークフローの構築
AE StudioはModalプラットフォームを活用し、進化戦略(ES)とGRPOの2つの強化学習手法を用いて言語モデルに数学の定理証明を学習させました。Lean検証器を使用し、Modalの並列GPU、サンドボックス分離、ボリュームストレージ機能により実験を効率的に実行。初期結果では、ESがいくつかのシナリオでGRPOに匹敵または上回る性能を示し、コストも大幅に削減されました。
- AE StudioはModal上で定理証明のための進化戦略(ES)をGRPOと比較実装。
- Modalの.map()による並列GPU推論、サンドボックスによる検証分離、ボリュームによるモデル保存でインフラを合理化。
ModalとOpenAI Agents SDKを使用した構築
ModalがOpenAI Agents SDKの公式サンドボックスプロバイダーになりました。この記事では、セキュアで並列・スケーラブルな自動化のためにModalサンドボックスを統合したカスタムコーディングエージェントフレームワークをゼロから構築する方法を、Parameter Golfチャレンジを例に説明します。
- ModalはOpenAI Agents SDKの公式サンドボックスプロバイダーで、分離されたスケーラブルな環境を提供します。
- 記事では、基本エージェント、サンドボックス化、記憶、サブエージェント、非同期並列処理、スナップショットなど、エージェントフレームワークを段階的に構築します。
オートスケーリング・オートリサーチ:Modalでエージェントに弾力的なGPUを提供
ModalはAutoresearchと統合し、弾力的なGPUスケーリングを提供し、AIエージェントが動的に計算リソースをプロビジョニングできるようにします。Parameter Golfチャレンジでは、エージェントが238 GPU時間で113の実験を実行し、単一ワークステーション比で5倍の高速化を達成し、専用クラスターのリソースのごく一部しか使用しませんでした。
- Modalにより、エージェントは単一GPUから数十のH100までシームレスにスケーリングでき、ワークロードの需要に適応します。
- Parameter Golfエージェントは、コアトレーニング実行を単一ワークステーションよりも5倍高速に完了し、リソース効率が高い。
Butter が Modal に参加
Modal は AI サンドボックス技術企業 Butter の買収を発表。創業者の Erik Dunteman 氏と研究者の Raymond Tana 氏が Modal サンドボックスチームに加わります。Butter はエージェントエンジニアリングの経験を持ち、Zig で構築された軽量な一時的サンドボックス bVisor を開発しました。
- Butter チームが Modal に参加し、エージェントエンジニアリングとサンドボックス製品を強化。
- 創業者 Erik Dunteman 氏は Banana の共同創業者として Modal との長い関係がある。
Physical Intelligence におけるロボットのリアルタイム推論
Physical Intelligence は Modal プラットフォームを活用し、QUIC ベースの専用トランスポートプロトコルにより、ロボット向けの低遅延リモートリアルタイム推論を実現。ネットワークオーバーヘッドはわずか 10~15 ミリ秒で、大規模モデルの実験も容易。
- Physical Intelligence は、汎用ロボット向け視覚言語行動(VLA)モデルを開発。
- Modal の Tunnels は TCP ベースで低遅延だが、制御ループにジッタが発生するため、専用の QUIC ベース UDP トランスポートを構築。
製品アップデート: RTX Pro 6000 Blackwell、Command K、Sandbox FS API など
ModalはNVIDIA RTX Pro 6000 Blackwell GPUのサポート、ダッシュボードのコマンドパレットCommand K、SandboxファイルシステムAPIのベータ版、SDKの改善、および顧客事例とコミュニティコンテンツなど、複数の製品アップデートを発表しました。
- RTX Pro 6000 Blackwellが利用可能に、96GB VRAMで推論やファインチューニングに最適。
- Command Kショートカットでナビゲーションとオブジェクトジャンプが可能に。
Runway、Modalを採用しRunway Charactersのリアルタイム推論を実現
RunwayはModalと提携し、Modalのサーバーレスコンピューティングプラットフォームを活用してRunway Charactersのリアルタイムビデオ推論を実現。Runway Charactersは、1枚の画像からカスタマイズ可能なデジタルキャラクターを生成するリアルタイムビデオエージェントAPIで、微調整は不要です。この技術はカスタマーサポート、内部トレーニングなどに利用されています。Modalのインフラにより、Runwayは30日未満で概念実証から本番環境に移行し、グローバルな低レイテンシ展開を実現しました。
- RunwayがModalと提携し、Runway Charactersのリアルタイム推論を実現。
- Runway CharactersはGWM-1モデルに基づくリアルタイムビデオエージェントAPI。
DoppelがModalでMLインフラ税を排除した方法
AIネイティブなサイバーセキュリティプラットフォームであるDoppelは、MLワークフローをModalに移行することで、実験の高速化と推論の簡素化を実現しました。トレーニング実験は並列化され、フィードバックループが短縮されました。推論ビルドは30分から1分未満に短縮され、トラフィックの急増に自動的にスケールします。
- DoppelはModalを使用してMLトレーニング実験を並列化し、反復サイクルを大幅に短縮しました。
- Modalのイメージキャッシュと永続ボリュームにより、モデルデプロイのビルド時間が最大10倍短縮されました。
プロダクトアップデート:ディレクトリスナップショット、GLM-5、課金アップデートなど
2月に出荷したすべての機能のまとめ:Sandbox用のディレクトリスナップショット、無料GLM-5エンドポイント、新しい課金APIなど。
- ディレクトリスナップショットにより、特定のディレクトリをスナップショットし、ベースイメージから独立してマウント可能。
- Z.aiとの提携により、4月末まで無料のGLM-5エンドポイントを提供。コーディングエージェントに最適。