2026-06-16站内改写2 分鐘閱讀更新: 2026-06-16

Amazon SageMaker AI 推出容器快取，加速模型擴充套件

Amazon SageMaker AI 宣佈容器映象快取功能，可將擴充套件事件中的端到端延遲最多降低 2 倍，尤其適用於生成式 AI 模型。

來源AWS Machine Learning Blog作者: Mona Mona

Amazon SageMaker AI 宣佈推出推理容器映象快取功能，這是其加速擴充套件最佳化旅程的最新重大進展。該功能在擴充套件事件中可將生成式 AI 模型的端到端延遲最多降低 2 倍。

多年來，Amazon SageMaker AI 持續降低擴充套件各階段的延遲：檢測擴充套件需求、預置例項、下載容器映象、獲取模型權重以及啟動容器。此前，SageMaker AI 引入了亞分鐘級 Amazon CloudWatch 指標，將擴充套件需求檢測速度提升多達 6 倍；並推出了推理元件資料快取解決方案，將容器映象和模型工件儲存在已執行例項上，從而降低了複用現有例項的推理元件操作的冷啟動延遲。這些功能共同提升了在可將推理元件放置到已預置例項並利用現有快取的場景下的自動擴充套件響應能力。

藉助容器快取，SageMaker AI 將這些擴充套件改進擴充套件到必須啟動新例項的場景。即使必須啟動新例項，容器快取也能消除容器映象下載延遲，而此前基於例項儲存的快取無法解決這一問題。

擴充套件挑戰：當必須啟動新例項時

當啟動新例項時，擴充套件步驟包括：例項預置（啟動新的 Amazon EC2 例項）、容器映象拉取（從 Amazon ECR 拉取）、模型工件下載（從 Amazon S3 獲取）以及容器啟動和健康檢查。其中，容器映象下載通常是對端點擴充套件延遲的主要貢獻者，尤其是對於生成式 AI 工作負載，這些工作負載使用大型容器，如 SageMaker Large Model Inference（LMI，基於 vLLM）、vLLM 和 NVIDIA Triton。

容器快取如何消除映象拉取瓶頸

對於 Qwen3-8B（16 GB）模型在 ml.g6.2xlarge 例項上使用 LMI 容器（壓縮後 17.7 GB）的場景，啟用容器快取前，從 Amazon ECR 拉取容器映象耗時 333 秒，從 Amazon S3 下載模型工件耗時 168 秒（兩者並行），端到端啟動延遲為 525 秒。啟用容器快取後，容器映象已本地快取（0 秒），模型工件下載由於不再與映象拉取競爭網路頻寬，耗時從 168 秒降至 77 秒，端到端啟動延遲降至 258 秒。總體改進約 51%。如果快取映象不可用，SageMaker AI 會自動回退到從 Amazon ECR 拉取，因此擴充套件永遠不會被阻塞。

與推理元件協同工作

容器快取與推理元件配合使用。當你部署多個推理元件時，快取會儲存每個推理元件引用的唯一容器映象。在安全性和租戶隔離方面，容器映象快取保持與 SageMaker AI 現有相同的嚴格租戶隔離保證。每個快取專用於單個客戶端點，不會跨 AWS 賬戶或端點共享。刪除端點時，關聯的映象快取會自動清除。

效能結果

早期訪問客戶測試結果顯示，不同客戶在不同例項和映象/模型大小下，P50 延遲改進為 38% 到 65%。

結合所有三種自動擴充套件最佳化

為獲得最快的擴充套件響應，可結合使用所有三項最佳化：1）亞分鐘級指標（檢測擴充套件需求提速 6 倍）；2）基於推理元件端點的資料快取（在現有例項上新增模型副本時減少映象拉取時間）；3）容器映象快取（啟動新例項時消除映象拉取時間）。兩者互補：當新推理元件副本放置在現有例項上時，資料快取消除映象和模型下載延遲；當需要啟動新例項時，容器映象快取提供零映象拉取時間。

支援的配置

容器快取支援 SageMaker 推理端點上的加速器例項型別。可與 Amazon ECR 中託管的任何容器映象配合使用，包括自定義映象，無需修改容器。目前已在所有支援 SageMaker AI 推理的商業 AWS 區域推出。

總結

藉助新的容器快取，Amazon SageMaker AI 提供了一整套專為生成式 AI 推理設計的自動擴充套件最佳化。亞分鐘級指標使自動擴充套件檢測負載變化的速度提升多達 6 倍。例項儲存容器快取消除了複用執行例項時的映象拉取和模型下載延遲。容器快取（本次釋出）消除了啟動新例項時的映象拉取，將端到端擴充套件延遲最多降低 50%。這些功能共同將 SageMaker AI 的擴充套件體驗從數分鐘的冷啟動延遲轉變為快速且可預測的響應。要開始使用，只需將生成式 AI 工作負載部署到支援的加速器例項型別上的 SageMaker AI 推理端點，容器快取將自動啟用。