AI News HubLIVE
站内改写2 分钟阅读

使用DLAMI和DLC上的SOCI索引减少容器冷启动时间

AWS Deep Learning AMI和Deep Learning Containers现已支持SOCI快照器和索引,通过选择性文件下载(延迟加载)和并行拉取模式,显著缩短容器启动时间。本文介绍了SOCI的工作原理、适用场景以及性能基准测试结果。

来源AWS Machine Learning Blog作者: Ohad Katz

AWS Deep Learning AMI(DLAMI)和Deep Learning Containers(DLC)现已集成对Seekable OCI(SOCI)快照器和索引的支持。SOCI是一种高效的容器镜像管理技术,通过基于层的索引系统映射容器镜像中的文件位置,实现仅加载必要文件的懒加载启动方式。这一技术能显著减少网络带宽占用并缩短容器启动时间,尤其适用于管理大型容器镜像的云环境。

在AI/ML工作负载规模化部署中,容器启动时间已成为生产环境的关键瓶颈。无论是启动训练任务、提供推理端点服务,还是自动扩展GPU集群,下载数GB的容器镜像所耗费的时间直接影响成本、用户体验和运营效率。传统Docker拉取需要下载整个镜像后才能启动,生产环境中常用的镜像下载可能需要数分钟。

AWS DLAMI和DLC提供三种容器拉取机制:标准Docker拉取、SOCI并行拉取和SOCI懒加载。它们构成一个权衡滑动条:Docker拉取顺序且缓慢;SOCI并行拉取通过分块下载加快启动速度,但消耗更多计算资源;SOCI懒加载实现近乎即时的容器启动,但文件需按需获取。选择哪种机制取决于镜像大小、实例规格和存储配置。低规格实例应使用懒加载以节省资源,而高规格实例配备多vCPU和高网络带宽则受益于并行拉取模式。存储性能也会影响:EBS卷受预置IOPS和卷类型限制,可能成为解包瓶颈;NVMe实例存储提供最高I/O性能,但数据在实例停止/启动周期后不会持久化。

性能基准测试展示了SOCI的显著优势。在g5.2xlarge实例上,使用标准Docker拉取9.72GB(压缩后)的vLLM镜像需6分59秒,而使用SOCI懒加载模式仅需21秒——启动时间减少95%以上。SOCI仅拉取启动所需的层和索引,其余层在后台按需加载。在并行拉取模式测试中,使用g5.4xlarge实例拉取19.32GB的SGLang镜像,标准Docker耗时4分44秒,而SOCI并行模式仅需2分13秒,提速约53%。

要启用懒加载,需确保容器镜像已创建并推送SOCI索引。AWS DLC中带有-soci标签的镜像已预置索引,可直接使用。自定义镜像需使用soci工具创建索引。并行拉取模式需修改配置文件/etc/soci-snapshotter-grpc/config.toml,设置并行下载和解包参数,然后重启soci-snapshotter服务。

SOCI技术为AI/ML工作负载的容器化部署带来显著性能提升,减少了GPU实例的空闲等待时间,加速了扩展响应,并优化了网络带宽利用。开发者可在AWS DLAMI和DLC中立即开始使用SOCI来优化容器启动性能。