又一巨大飛躍:Rubin CPX 專用加速器及機架
Nvidia 發佈了 Rubin CPX,這是一款專門為預填充階段優化的解決方案,單芯片 Rubin CPX 重點強調計算 FLOPS 而非內存帶寬。這對推理來説是遊戲規則的改變者,其重要性僅次於 2024 年 3 月發佈的 GB200 NVL72 Oberon 機架級形態。只有為推理的預填充和解碼這兩個截然不同的階段定製硬件,才能充分發揮分解式服務的潛力。Nvidia 的機架系統設計差距已變得如鴻溝般巨大,競爭對手需要重新調整路線圖。
Nvidia 在 AI 基礎設施峯會上宣佈了 Rubin CPX,這是一款專門針對推理預填充階段優化的 GPU。與傳統的通用 GPU 不同,Rubin CPX 的設計目標是最大化計算吞吐量,同時降低內存帶寬,因為預填充階段主要是計算密集型,對內存帶寬的需求較低。它提供 20 PFLOPS 的 FP4 密集計算能力,但內存帶寬僅為 2 TB/s,搭載 128GB 的 GDDR7 內存,與使用昂貴 HBM 的 R200 相比,成本大幅降低。
Rubin CPX 的推出擴展了 Vera Rubin 機架系列,提供了三種配置:VR200 NVL144(僅 R200)、VR200 NVL144 CPX(混合 R200 和 CPX)以及雙機架方案(獨立 VR200 NVL144 和 VR CPX 機架)。混合機架在每個計算托盤內集成 4 個 R200 和 8 個 CPX,總功率約 370kW。雙機架方案允許客户靈活調整預填充與解碼的比例,並降低故障影響範圍。
預填充專用硬件的優勢在於其成本效益。由於預填充階段內存帶寬利用率低,使用昂貴的 HBM 是一種浪費。Rubin CPX 通過使用更便宜的 GDDR7 和更簡單的封裝(無需 CoWoS),將每 GB 內存成本降低 50% 以上。此外,它僅通過 PCIe Gen 6 連接,避免了昂貴的 NVLink 交換機和背板,每個 GPU 可節省約 8000 美元的系統成本。
這種專業化設計推動了分解式服務的發展。傳統方法將預填充和解碼放在同一硬件上會導致資源競爭和效率低下。使用 Rubin CPX 進行預填充,R200 專注於解碼,可以優化每種工作負載,降低總擁有成本(TCO)。例如,在預填充場景下,R200 的內存帶寬利用率可能低至個位數,造成每小時 0.90 美元的浪費,而 Rubin CPX 則大大減少了這種浪費。
Nvidia 的這一舉措給競爭對手帶來了巨大壓力。AMD 的 MI400 系列雖然接近 Nvidia 的機架規模,但現在需要開發自己的預填充芯片,否則將在 token 經濟中落後。Google TPU 憑藉其 3D Torus 網絡具有優勢,但同樣需要預填充專用芯片來保持每美元性能。AWS Trainium3 和 Meta MTIAv4 等自研芯片項目也需要重新考慮路線圖,增加預填充芯片的開發。
儘管 Rubin CPX 顯著降低了推理成本,但也存在一些缺點。固定比例的混合機架限制了靈活性,而雙機架方案需要更多空間和網絡連接。此外,隨着模型和需求的變化,優化預填充與解碼的比例可能是一項挑戰。然而,Nvidia 通過持續創新再次拉大了與競爭對手的差距,將對手送回繪圖板重新設計。
總之,Rubin CPX 代表了 AI 推理硬件的重大進步,通過專業化分解式服務降低了成本並提高了效率。隨着 Nvidia 繼續推動 Huang 定律,未來的發展可能包括解碼專用芯片,進一步優化推理工作負載。