AI News HubLIVE
站内改写2 分鐘閱讀

使用DLAMI和DLC上的SOCI索引減少容器冷啟動時間

AWS Deep Learning AMI和Deep Learning Containers現已支援SOCI快照器和索引,透過選擇性檔案下載(延遲載入)和並行拉取模式,顯著縮短容器啟動時間。本文介紹了SOCI的工作原理、適用場景以及效能基準測試結果。

來源AWS Machine Learning Blog作者: Ohad Katz

AWS Deep Learning AMI(DLAMI)和Deep Learning Containers(DLC)現已整合對Seekable OCI(SOCI)快照器和索引的支援。SOCI是一種高效的容器映象管理技術,透過基於層的索引系統對映容器映象中的檔案位置,實現僅載入必要檔案的懶載入啟動方式。這一技術能顯著減少網路頻寬佔用並縮短容器啟動時間,尤其適用於管理大型容器映象的雲環境。

在AI/ML工作負載規模化部署中,容器啟動時間已成為生產環境的關鍵瓶頸。無論是啟動訓練任務、提供推理端點服務,還是自動擴充套件GPU叢集,下載數GB的容器映象所耗費的時間直接影響成本、使用者體驗和運營效率。傳統Docker拉取需要下載整個映象後才能啟動,生產環境中常用的映象下載可能需要數分鐘。

AWS DLAMI和DLC提供三種容器拉取機制:標準Docker拉取、SOCI並行拉取和SOCI懶載入。它們構成一個權衡滑動條:Docker拉取順序且緩慢;SOCI並行拉取透過分塊下載加快啟動速度,但消耗更多計算資源;SOCI懶載入實現近乎即時的容器啟動,但檔案需按需獲取。選擇哪種機制取決於映象大小、例項規格和儲存配置。低規格例項應使用懶載入以節省資源,而高規格例項配備多vCPU和高網路頻寬則受益於並行拉取模式。儲存效能也會影響:EBS卷受預置IOPS和卷型別限制,可能成為解包瓶頸;NVMe例項儲存提供最高I/O效能,但資料在例項停止/啟動週期後不會持久化。

效能基準測試展示了SOCI的顯著優勢。在g5.2xlarge例項上,使用標準Docker拉取9.72GB(壓縮後)的vLLM映象需6分59秒,而使用SOCI懶載入模式僅需21秒——啟動時間減少95%以上。SOCI僅拉取啟動所需的層和索引,其餘層在後臺按需載入。在並行拉取模式測試中,使用g5.4xlarge例項拉取19.32GB的SGLang映象,標準Docker耗時4分44秒,而SOCI並行模式僅需2分13秒,提速約53%。

要啟用懶載入,需確保容器映象已建立並推送SOCI索引。AWS DLC中帶有-soci標籤的映象已預置索引,可直接使用。自定義映象需使用soci工具建立索引。並行拉取模式需修改配置檔案/etc/soci-snapshotter-grpc/config.toml,設定並行下載和解包引數,然後重啟soci-snapshotter服務。

SOCI技術為AI/ML工作負載的容器化部署帶來顯著效能提升,減少了GPU例項的空閒等待時間,加速了擴充套件響應,並最佳化了網路頻寬利用。開發者可在AWS DLAMI和DLC中立即開始使用SOCI來最佳化容器啟動效能。