Amazon SageMaker AI がコンテナキャッシングを導入し、モデルスケーリングを高速化
Amazon SageMaker AI は、推論用のコンテナイメージキャッシングを発表し、スケールアウトイベントにおいて生成AIモデルのエンドツーエンドレイテンシーを最大2倍削減します。
Amazon SageMaker AI は、推論向けのコンテナイメージキャッシングを発表しました。これは、より高速なスケーリング最適化の取り組みにおける最新の主要な進歩です。この機能により、スケールアウトイベントにおける生成AIモデルのエンドツーエンドレイテンシーが最大2倍高速化されます。
長年にわたり、Amazon SageMaker AI は、スケーリングの各段階(スケールアウトの必要性の検出、インスタンスのプロビジョニング、コンテナイメージのダウンロード、モデルウェイトの取得、コンテナの起動)におけるレイテンシーを削減してきました。以前、SageMaker AI は、サブ分単位の Amazon CloudWatch メトリクスを導入し、従来のメカニズムよりも最大6倍高速にスケールアウトの必要性を検出できるようにしました。また、推論コンポーネントデータキャッシングソリューションを発表し、コンテナイメージとモデルアーティファクトを既存の実行中のインスタンスに保存することで、既存のインスタンスを再利用する推論コンポーネント操作のコールドスタートレイテンシーを削減しました。これらの機能により、推論コンポーネントを既にプロビジョニングされたインスタンスに配置し、既存のキャッシュを利用できるシナリオにおける自動スケーリングの応答性が向上しました。
コンテナキャッシングにより、SageMaker AI はこれらのスケーリング改善を、新しいインスタンスを起動しなければならないシナリオにも拡張します。コンテナキャッシングは、新しいインスタンスを起動する場合でもコンテナイメージのダウンロードレイテンシーを排除します。これは、以前のインスタンスストアベースのキャッシングでは対応できなかったシナリオです。
スケーリングの課題:新しいインスタンスを起動する場合
新しいインスタンスを起動する際のスケーリング手順は次のとおりです。インスタンスのプロビジョニング(新しい Amazon EC2 インスタンスの起動)、コンテナイメージのプル(Amazon ECR からのプル)、モデルアーティファクトのダウンロード(Amazon S3 からの取得)、コンテナの起動とヘルスチェック。このうち、コンテナイメージのダウンロードは、特に生成AIワークロードにおいて、エンドポイントのスケールアウトレイテンシーの主要な要因となることがよくあります。これらのワークロードは、SageMaker Large Model Inference(LMI、vLLM ベース)、vLLM、NVIDIA Triton などの大きなコンテナを使用します。
コンテナキャッシングがイメージプルのボトルネックを排除する方法
Qwen3-8B(16 GB)モデルを ml.g6.2xlarge インスタンス上で LMI コンテナ(圧縮後 17.7 GB)を使用した場合のスケーリングタイムラインの変化は次のとおりです。コンテナキャッシング前:Amazon ECR からのコンテナイメージプルに 333 秒、Amazon S3 からのモデルアーティファクトダウンロードに 168 秒(並列実行)、エンドツーエンド起動レイテンシーは 525 秒。コンテナキャッシング後:コンテナイメージは既にローカルにキャッシュされているため 0 秒、モデルアーティファクトのダウンロードはイメージプルとのネットワーク帯域幅の競合がなくなるため 168 秒から 77 秒に短縮、エンドツーエンド起動レイテンシーは 258 秒。全体として約 51% の改善です。キャッシュされたイメージが利用できない場合、SageMaker AI は自動的に Amazon ECR からのプルにフォールバックするため、スケーリングがブロックされることはありません。
推論コンポーネントとの連携
コンテナキャッシングは推論コンポーネントと連携します。複数の推論コンポーネントをデプロイする場合、キャッシュは各推論コンポーネントが参照する一意のコンテナイメージを保存します。セキュリティとテナント分離に関しては、コンテナイメージキャッシングは SageMaker AI が現在提供しているものと同じ厳格なテナント分離を維持します。各キャッシュは単一の顧客エンドポイント専用であり、AWS アカウントやエンドポイント間で共有されることはありません。エンドポイントが削除されると、関連するイメージキャッシュは自動的に消去されます。
パフォーマンス結果
早期アクセス顧客によるテスト結果では、インスタンスタイプやイメージサイズ、モデルサイズに応じて、P50 レイテンシーの改善率は 38% から 65% の範囲でした。
3つの自動スケーリング最適化の組み合わせ
最速のスケーリング応答を得るには、これまでの自動スケーリング最適化シリーズで導入された3つの機能すべてを組み合わせることができます。1) サブ分メトリクス:スケールアップの必要性を6倍高速にトリガー。2) 推論コンポーネントベースのエンドポイント向けデータキャッシュ:既存のインスタンスにモデルコピーを追加する際のイメージプル時間を削減。3) コンテナイメージキャッシュ:新しいインスタンスを起動する際のイメージプル時間を排除。これらの最適化は、異なるスケーリング軸で補完し合います。新しい推論コンポーネントのコピーが既存のインスタンスに配置されると、データキャッシュがイメージとモデルのダウンロードレイテンシーを排除します。新しいインスタンスの起動が必要な場合、コンテナイメージキャッシュが起動時のイメージプル時間をゼロにします。
サポートされる構成
コンテナキャッシングは、SageMaker 推論エンドポイントのアクセラレーターインスタンスタイプでサポートされます。Amazon ECR でホストされている任意のコンテナイメージ(カスタムイメージを含む)で動作し、コンテナの変更は不要です。すべての商用 AWS リージョンで利用可能です。
まとめ
新しいコンテナキャッシングにより、Amazon SageMaker AI は、生成AI推論用に設計された一連の自動スケーリング最適化を提供します。サブ分メトリクスにより、自動スケーリングは標準の1分間 CloudWatch メトリクスよりも最大6倍高速に負荷変化を検出できます。インスタンスストアコンテナキャッシングは、実行中のインスタンスを再利用する際のイメージプルとモデルダウンロードのレイテンシーを排除します。新しいインスタンスでのコンテナキャッシュ(今回のリリース)は、新しいインスタンス起動時のイメージプルを排除し、エンドツーエンドのスケーリングレイテンシーを最大50%削減します。これらの機能により、SageMaker AI のスケーリングエクスペリエンスは、数分のコールドスタートレイテンシーから、迅速で予測可能な応答へと変わります。開始するには、生成AIワークロードをサポートされるアクセラレーターインスタンスタイプの SageMaker AI 推論エンドポイントにデプロイするだけで、コンテナキャッシングが自動的に有効になります。