Amazon SageMaker AI 推出容器缓存,加速模型扩展
Amazon SageMaker AI 宣布容器镜像缓存功能,可将扩展事件中的端到端延迟最多降低 2 倍,尤其适用于生成式 AI 模型。
Amazon SageMaker AI 宣布推出推理容器镜像缓存功能,这是其加速扩展优化旅程的最新重大进展。该功能在扩展事件中可将生成式 AI 模型的端到端延迟最多降低 2 倍。
多年来,Amazon SageMaker AI 持续降低扩展各阶段的延迟:检测扩展需求、预置实例、下载容器镜像、获取模型权重以及启动容器。此前,SageMaker AI 引入了亚分钟级 Amazon CloudWatch 指标,将扩展需求检测速度提升多达 6 倍;并推出了推理组件数据缓存解决方案,将容器镜像和模型工件存储在已运行实例上,从而降低了复用现有实例的推理组件操作的冷启动延迟。这些功能共同提升了在可将推理组件放置到已预置实例并利用现有缓存的场景下的自动扩展响应能力。
借助容器缓存,SageMaker AI 将这些扩展改进扩展到必须启动新实例的场景。即使必须启动新实例,容器缓存也能消除容器镜像下载延迟,而此前基于实例存储的缓存无法解决这一问题。
扩展挑战:当必须启动新实例时
当启动新实例时,扩展步骤包括:实例预置(启动新的 Amazon EC2 实例)、容器镜像拉取(从 Amazon ECR 拉取)、模型工件下载(从 Amazon S3 获取)以及容器启动和健康检查。其中,容器镜像下载通常是对端点扩展延迟的主要贡献者,尤其是对于生成式 AI 工作负载,这些工作负载使用大型容器,如 SageMaker Large Model Inference(LMI,基于 vLLM)、vLLM 和 NVIDIA Triton。
容器缓存如何消除镜像拉取瓶颈
对于 Qwen3-8B(16 GB)模型在 ml.g6.2xlarge 实例上使用 LMI 容器(压缩后 17.7 GB)的场景,启用容器缓存前,从 Amazon ECR 拉取容器镜像耗时 333 秒,从 Amazon S3 下载模型工件耗时 168 秒(两者并行),端到端启动延迟为 525 秒。启用容器缓存后,容器镜像已本地缓存(0 秒),模型工件下载由于不再与镜像拉取竞争网络带宽,耗时从 168 秒降至 77 秒,端到端启动延迟降至 258 秒。总体改进约 51%。如果缓存镜像不可用,SageMaker AI 会自动回退到从 Amazon ECR 拉取,因此扩展永远不会被阻塞。
与推理组件协同工作
容器缓存与推理组件配合使用。当你部署多个推理组件时,缓存会存储每个推理组件引用的唯一容器镜像。在安全性和租户隔离方面,容器镜像缓存保持与 SageMaker AI 现有相同的严格租户隔离保证。每个缓存专用于单个客户端点,不会跨 AWS 账户或端点共享。删除端点时,关联的镜像缓存会自动清除。
性能结果
早期访问客户测试结果显示,不同客户在不同实例和镜像/模型大小下,P50 延迟改进为 38% 到 65%。
结合所有三种自动扩展优化
为获得最快的扩展响应,可结合使用所有三项优化:1)亚分钟级指标(检测扩展需求提速 6 倍);2)基于推理组件端点的数据缓存(在现有实例上添加模型副本时减少镜像拉取时间);3)容器镜像缓存(启动新实例时消除镜像拉取时间)。两者互补:当新推理组件副本放置在现有实例上时,数据缓存消除镜像和模型下载延迟;当需要启动新实例时,容器镜像缓存提供零镜像拉取时间。
支持的配置
容器缓存支持 SageMaker 推理端点上的加速器实例类型。可与 Amazon ECR 中托管的任何容器镜像配合使用,包括自定义镜像,无需修改容器。目前已在所有支持 SageMaker AI 推理的商业 AWS 区域推出。
总结
借助新的容器缓存,Amazon SageMaker AI 提供了一整套专为生成式 AI 推理设计的自动扩展优化。亚分钟级指标使自动扩展检测负载变化的速度提升多达 6 倍。实例存储容器缓存消除了复用运行实例时的镜像拉取和模型下载延迟。容器缓存(本次发布)消除了启动新实例时的镜像拉取,将端到端扩展延迟最多降低 50%。这些功能共同将 SageMaker AI 的扩展体验从数分钟的冷启动延迟转变为快速且可预测的响应。要开始使用,只需将生成式 AI 工作负载部署到支持的加速器实例类型上的 SageMaker AI 推理端点,容器缓存将自动激活。