AI News HubLIVE
站内改写

AWS基礎模型訓練與推理的構建模組

本文分析了AWS在基礎模型預訓練、後訓練和推理中的基礎設施元件,包括GPU例項、彈性網路介面卡(EFA)、Lustre檔案系統及UltraCluster/UltraServer架構,並強調開源軟體在資源管理和監控中的作用。

文章情報

工程師進階

要點

  • 基礎模型擴充套件已從單一預訓練擴充套件到後訓練和測試時計算三個尺度。
  • AWS提供從H100到B300的多代GPU例項,並配有NVLink和EFA網路。
  • Lustre共享儲存和S3持久化構成分層儲存體系。
  • UltraServer透過擴充套件NVLink域減少跨節點通訊開銷。

為什麼重要

這條新聞值得關注,因為基礎模型擴充套件已從單一預訓練擴充套件到後訓練和測試時計算三個尺度。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本文旨在為機器學習工程師和研究人員提供關於在AWS上進行基礎模型訓練和推理的技術基礎。文章主要基於開源軟體棧,分析AWS基礎設施如何與常見工具鏈整合,以應對大規模分散式訓練和推理中的系統瓶頸和擴充套件特性。

基礎模型的擴充套件定律已經發生變化。過去主要依賴預訓練階段的算力投入,但現在後訓練(如監督微調、基於強化學習的方法)和測試時計算(如長思考、搜尋驗證、多樣本策略)也顯著影響效能。AWS的基礎設施需要支援這三個階段的協同需求,包括緊密耦合的加速計算、高頻寬低延遲網路以及分散式儲存後端。

在基礎設施層,AWS提供多種GPU例項。P5例項基於H100 GPU,P5e和P5en基於H200,P6則採用Blackwell B200和B300。這些例項的峰值張量吞吐量、HBM容量和頻寬以及互連頻寬是主要擴充套件維度。例如,H100的BF16/FP16張量峰值達到0.9895 PFLOPS,而B300則達到2.25 PFLOPS,並支援FP4精度(13.5 PFLOPS)。裝置記憶體從H100的80 GB HBM3到B300的288 GB HBM3e,頻寬也從3.35 TB/s提升至8 TB/s。

多GPU例項利用NVLink進行機內擴充套件,提供高頻寬GPU直連,避免主機網路棧開銷。對於跨節點擴充套件,AWS的彈性網路介面卡(EFA)提供核心旁路的RDMA通訊,支援可擴充套件可靠資料包(SRD)協議。EFA已有多個版本:EFA v2(P5例項)、EFA v3(P5en例項,延遲降低35%)和EFA v4(P6例項,集合同效能再提升18%)。

儲存方面,AWS採用分層架構:本地NVMe SSD用於熱資料,Lustre並行檔案系統(透過Amazon FSx for Lustre託管)提供共享高吞吐訪問,Amazon S3用於持久化儲存。Lustre與S3透過資料倉儲關聯(Data Repository Associations)實現懶載入資料集和自動檢查點匯出。

在大規模叢集層面,Amazon EC2 UltraClusters將數千個加速例項部署在同一可用區,透過PB級非阻塞網路互連。針對通訊密集型工作負載(如MoE模型的專家並行),NVLink域大小成為關鍵約束。為此,AWS推出UltraServers,透過專用加速互連將多個例項的NVLink域擴充套件。例如,P6e-GB200 UltraServer基於NVIDIA GB200 NVL72平臺,在單個NVLink域內包含最多72個Blackwell GPU和13.4 TB HBM3e。其元件例項p6e-gb200.36xlarge提供4個GPU和200 GB/s EFA頻寬,組合後UltraServer總EFA頻寬達1,800 GB/s。

文章還強調開源軟體棧在叢集資源管理(Slurm、Kubernetes)、模型開發框架(PyTorch、JAX)和可觀測性(Prometheus、Grafana)中的核心地位。AWS基礎設施與這些工具深度整合,為整個基礎模型生命週期提供端到端支援。後續系列文章將更詳細地探討各層的具體實現。