Modal Auto Endpoints 発表:最適化された推論を真に所有する
Modal は Auto Endpoints をリリース。これはプロダクショングレードの LLM 推論へのセルフサービスの入口で、単一のコマンドで最先端のオープンモデルをデプロイし、推論コード、メトリクス、インフラを完全に制御できます。Modal の AI インフラプラットフォーム上に構築され、高性能オートスケーリング、カスタムコンテナランタイム、グローバル GPU 利用、および超低レイテンシルーティング(5ms オーバーヘッド)を実現する Modal Servers を備えています。トップチームの経験に基づく事前調整済みレシピと DFlash 投機的デコードを内蔵。将来は推論エンジニアリングの完全自動化を目指します。
Modal は本日、Auto Endpoints を正式にリリースしました。これは、チームがコスト効率や開発速度を犠牲にすることなく、真に推論を所有できるようにする、プロダクショングレードの LLM 推論へのセルフサービス入口です。「modal endpoint create --name agent --model zai-org/GLM-5.2-FP8」という単一のコマンドで、最先端のオープンモデルをデプロイできます。
Auto Endpoints は従来のマネージド推論プロバイダーとは大きく異なります。Modal はコードを隠しません。GPU 選択、リージョナル化、推論エンジンフラグ、必要なエンジンパッチに至るまで、すべてがユーザーと共有されます。メトリクスも完全に透過的です。投機的デコードの受付長やレプリカごとのエンジン側トークンレイテンシ分位数など、デバッグに不可欠な主要メトリクスが自動的に提供されます。さらに、「営業に連絡」ボタンはなく、CLI またはクリック操作で直接デプロイできます。
この新サービスは、Modal の堅牢な AI インフラストラクチャプラットフォーム上に構築されています。このプラットフォームは、タンパク質の折り畳み、ロボット制御、音楽制作などのタスクをサポートしてきました。同じ基本コンポーネントが LLM 推論にも機能します。Modal では、高額な GPU 容量を数カ月単位で予約する必要はなく、使用した分だけ支払い、高性能オートスケーリングシステムとカスタムコンテナランタイムで需要に応じてスケールします。世界中の GPU を容量管理の心配なく利用できます。
低レイテンシ推論の要求を満たすため、Modal は新しい基本コンポーネント「Modal Servers」も追加しました。Modal Servers は、Modal Web Functions の弾力的なスケーリングと深い計算能力を維持しながら、キューイングを排除し、デフォルトでリージョナル化されています。これにより、HTTP リクエストをわずか 5ms のオーバーヘッドで提供し、信頼性とオートスケーリングを損ないません。
推論エンジンはデータベース管理システムに似ており、複雑で重要です。Auto Endpoints はユーザーにパフォーマンス最適化を提供します。サポートされる各モデルについて、Modal は最も要求の厳しい AI 製品を構築するチームとの協力経験に基づいた事前調整済みデプロイ設定を提供します。ユーザーは GPU タイプを指定したり、エンジンパラメータを調整したりする必要はなく、準備ができた時点でカスタム最適化を行えます。これらの設定は、専有推論プロバイダーとの直接競争の中で開発され、SGLang や FlashAttention-4 などのオープンソースへの改善と、投機的デコードへの全面的な投資によって勝利しました。Modal は特に Z Lab の DFlash ブロック拡散ドラフターアーキテクチャを採用し、Z Lab および SGLang チームと緊密に協力して、実際のサービングシステムで高速かつ信頼性を確保しています。また、独自の DFlash ドラフターモデルをトレーニングしてリリースし、サポート範囲を拡大し、最適なパフォーマンスを提供しています。
可観測性に関して、Auto Endpoints はサーバーメトリクス(GPU 温度、電力、利用率)と推論メトリクス(最初のトークンまでの時間、トークン間レイテンシ、キューイング、投機的デコード受付長)の 2 グループを提供します。ユーザーはダッシュボードで直接確認するか、OTEL 経由でエクスポートできます。サンプルダッシュボードは、ビジョンランゲージモデルエンドポイントがトラフィックスパイクを処理する様子を示しています。負荷が増加すると単一コンテナのレイテンシが上昇し、オートスケーリングシステムが自動的に 2 つの追加レプリカを起動し、キューが縮小し、レイテンシが正常に戻ります。
Auto Endpoints の設計は宣言的であり、ワークロードと SLO に基づいています。将来、Modal は推論エンジニアリングの完全自動化を計画しています。これには、自動推論(設定、パッチ、ベンチマーク)、自動スペック(ドラフターモデルの作成と更新)、自動蒸留(デプロイされたモデルから小規模で高速なモデルへの能力蒸留)、自動研究(パフォーマンス機能、推論エンジン、さらにはモデルの開発)が含まれます。現在、エージェントシステムは人間のエンジニアによって監視されていますが、人工知能によるソフトウェアエンジニアリングの改善の軌跡は明らかであり、Modal はその方向に進んでいます。例えば、ドラフターモデルはすでに 4 倍以上の高速化を達成していますが、将来は自動検出とトレーニングパイプラインによってさらに最適化されます。
ユーザーは今すぐ Auto Endpoints を試用し、リンクをクリックして推論の所有権を取得できます。