Amazon SageMaker AI 推出容器緩存,加速模型擴展
Amazon SageMaker AI 宣佈容器鏡像緩存功能,可將擴展事件中的端到端延遲最多降低 2 倍,尤其適用於生成式 AI 模型。
Amazon SageMaker AI 宣佈推出推理容器鏡像緩存功能,這是其加速擴展優化旅程的最新重大進展。該功能在擴展事件中可將生成式 AI 模型的端到端延遲最多降低 2 倍。
多年來,Amazon SageMaker AI 持續降低擴展各階段的延遲:檢測擴展需求、預置實例、下載容器鏡像、獲取模型權重以及啓動容器。此前,SageMaker AI 引入了亞分鐘級 Amazon CloudWatch 指標,將擴展需求檢測速度提升多達 6 倍;並推出了推理組件數據緩存解決方案,將容器鏡像和模型工件存儲在已運行實例上,從而降低了複用現有實例的推理組件操作的冷啓動延遲。這些功能共同提升了在可將推理組件放置到已預置實例並利用現有緩存的場景下的自動擴展響應能力。
藉助容器緩存,SageMaker AI 將這些擴展改進擴展到必須啓動新實例的場景。即使必須啓動新實例,容器緩存也能消除容器鏡像下載延遲,而此前基於實例存儲的緩存無法解決這一問題。
擴展挑戰:當必須啓動新實例時
當啓動新實例時,擴展步驟包括:實例預置(啓動新的 Amazon EC2 實例)、容器鏡像拉取(從 Amazon ECR 拉取)、模型工件下載(從 Amazon S3 獲取)以及容器啓動和健康檢查。其中,容器鏡像下載通常是對端點擴展延遲的主要貢獻者,尤其是對於生成式 AI 工作負載,這些工作負載使用大型容器,如 SageMaker Large Model Inference(LMI,基於 vLLM)、vLLM 和 NVIDIA Triton。
容器緩存如何消除鏡像拉取瓶頸
對於 Qwen3-8B(16 GB)模型在 ml.g6.2xlarge 實例上使用 LMI 容器(壓縮後 17.7 GB)的場景,啓用容器緩存前,從 Amazon ECR 拉取容器鏡像耗時 333 秒,從 Amazon S3 下載模型工件耗時 168 秒(兩者並行),端到端啓動延遲為 525 秒。啓用容器緩存後,容器鏡像已本地緩存(0 秒),模型工件下載由於不再與鏡像拉取競爭網絡帶寬,耗時從 168 秒降至 77 秒,端到端啓動延遲降至 258 秒。總體改進約 51%。如果緩存鏡像不可用,SageMaker AI 會自動回退到從 Amazon ECR 拉取,因此擴展永遠不會被阻塞。
與推理組件協同工作
容器緩存與推理組件配合使用。當你部署多個推理組件時,緩存會存儲每個推理組件引用的唯一容器鏡像。在安全性和租户隔離方面,容器鏡像緩存保持與 SageMaker AI 現有相同的嚴格租户隔離保證。每個緩存專用於單個客户端點,不會跨 AWS 賬户或端點共享。刪除端點時,關聯的鏡像緩存會自動清除。
性能結果
早期訪問客户測試結果顯示,不同客户在不同實例和鏡像/模型大小下,P50 延遲改進為 38% 到 65%。
結合所有三種自動擴展優化
為獲得最快的擴展響應,可結合使用所有三項優化:1)亞分鐘級指標(檢測擴展需求提速 6 倍);2)基於推理組件端點的數據緩存(在現有實例上添加模型副本時減少鏡像拉取時間);3)容器鏡像緩存(啓動新實例時消除鏡像拉取時間)。兩者互補:當新推理組件副本放置在現有實例上時,數據緩存消除鏡像和模型下載延遲;當需要啓動新實例時,容器鏡像緩存提供零鏡像拉取時間。
支持的配置
容器緩存支持 SageMaker 推理端點上的加速器實例類型。可與 Amazon ECR 中託管的任何容器鏡像配合使用,包括自定義鏡像,無需修改容器。目前已在所有支持 SageMaker AI 推理的商業 AWS 區域推出。
總結
藉助新的容器緩存,Amazon SageMaker AI 提供了一整套專為生成式 AI 推理設計的自動擴展優化。亞分鐘級指標使自動擴展檢測負載變化的速度提升多達 6 倍。實例存儲容器緩存消除了複用運行實例時的鏡像拉取和模型下載延遲。容器緩存(本次發佈)消除了啓動新實例時的鏡像拉取,將端到端擴展延遲最多降低 50%。這些功能共同將 SageMaker AI 的擴展體驗從數分鐘的冷啓動延遲轉變為快速且可預測的響應。要開始使用,只需將生成式 AI 工作負載部署到支持的加速器實例類型上的 SageMaker AI 推理端點,容器緩存將自動激活。