AWS基礎模型訓練與推理的構建模塊
本文分析了AWS在基礎模型預訓練、後訓練和推理中的基礎設施組件,包括GPU實例、彈性網絡適配器(EFA)、Lustre文件系統及UltraCluster/UltraServer架構,並強調開源軟件在資源管理和監控中的作用。
文章情報
要點
- 基礎模型擴展已從單一預訓練擴展到後訓練和測試時計算三個尺度。
- AWS提供從H100到B300的多代GPU實例,並配有NVLink和EFA網絡。
- Lustre共享存儲和S3持久化構成分層存儲體系。
- UltraServer通過擴展NVLink域減少跨節點通信開銷。
為甚麼重要
這條新聞值得關注,因為基礎模型擴展已從單一預訓練擴展到後訓練和測試時計算三個尺度。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
本文旨在為機器學習工程師和研究人員提供關於在AWS上進行基礎模型訓練和推理的技術基礎。文章主要基於開源軟件棧,分析AWS基礎設施如何與常見工具鏈集成,以應對大規模分佈式訓練和推理中的系統瓶頸和擴展特性。
基礎模型的擴展定律已經發生變化。過去主要依賴預訓練階段的算力投入,但現在後訓練(如監督微調、基於強化學習的方法)和測試時計算(如長思考、搜索驗證、多樣本策略)也顯著影響性能。AWS的基礎設施需要支持這三個階段的協同需求,包括緊密耦合的加速計算、高帶寬低延遲網絡以及分佈式存儲後端。
在基礎設施層,AWS提供多種GPU實例。P5實例基於H100 GPU,P5e和P5en基於H200,P6則採用Blackwell B200和B300。這些實例的峯值張量吞吐量、HBM容量和帶寬以及互連帶寬是主要擴展維度。例如,H100的BF16/FP16張量峯值達到0.9895 PFLOPS,而B300則達到2.25 PFLOPS,並支持FP4精度(13.5 PFLOPS)。設備內存從H100的80 GB HBM3到B300的288 GB HBM3e,帶寬也從3.35 TB/s提升至8 TB/s。
多GPU實例利用NVLink進行機內擴展,提供高帶寬GPU直連,避免主機網絡棧開銷。對於跨節點擴展,AWS的彈性網絡適配器(EFA)提供內核旁路的RDMA通信,支持可擴展可靠數據報(SRD)協議。EFA已有多個版本:EFA v2(P5實例)、EFA v3(P5en實例,延遲降低35%)和EFA v4(P6實例,集合同性能再提升18%)。
存儲方面,AWS採用分層架構:本地NVMe SSD用於熱數據,Lustre並行文件系統(通過Amazon FSx for Lustre託管)提供共享高吞吐訪問,Amazon S3用於持久化存儲。Lustre與S3通過數據倉庫關聯(Data Repository Associations)實現懶加載數據集和自動檢查點導出。
在大規模集羣層面,Amazon EC2 UltraClusters將數千個加速實例部署在同一可用區,通過PB級非阻塞網絡互連。針對通信密集型工作負載(如MoE模型的專家並行),NVLink域大小成為關鍵約束。為此,AWS推出UltraServers,通過專用加速互連將多個實例的NVLink域擴展。例如,P6e-GB200 UltraServer基於NVIDIA GB200 NVL72平台,在單個NVLink域內包含最多72個Blackwell GPU和13.4 TB HBM3e。其組件實例p6e-gb200.36xlarge提供4個GPU和200 GB/s EFA帶寬,組合後UltraServer總EFA帶寬達1,800 GB/s。
文章還強調開源軟件棧在集羣資源管理(Slurm、Kubernetes)、模型開發框架(PyTorch、JAX)和可觀測性(Prometheus、Grafana)中的核心地位。AWS基礎設施與這些工具深度集成,為整個基礎模型生命週期提供端到端支持。後續系列文章將更詳細地探討各層的具體實現。