AI News HubLIVE
站內改寫2 分鐘閱讀

又一巨大飛躍:Rubin CPX 專用加速器及機架

Nvidia 釋出了 Rubin CPX,這是一款專門為預填充階段最佳化的解決方案,單晶片 Rubin CPX 重點強調計算 FLOPS 而非記憶體頻寬。這對推理來說是遊戲規則的改變者,其重要性僅次於 2024 年 3 月釋出的 GB200 NVL72 Oberon 機架級形態。只有為推理的預填充和解碼這兩個截然不同的階段定製硬體,才能充分發揮分解式服務的潛力。Nvidia 的機架系統設計差距已變得如鴻溝般巨大,競爭對手需要重新調整路線圖。

來源SemiAnalysis作者: Dylan Patel

Nvidia 在 AI 基礎設施峰會上宣佈了 Rubin CPX,這是一款專門針對推理預填充階段最佳化的 GPU。與傳統的通用 GPU 不同,Rubin CPX 的設計目標是最大化計算吞吐量,同時降低記憶體頻寬,因為預填充階段主要是計算密集型,對記憶體頻寬的需求較低。它提供 20 PFLOPS 的 FP4 密集計算能力,但記憶體頻寬僅為 2 TB/s,搭載 128GB 的 GDDR7 記憶體,與使用昂貴 HBM 的 R200 相比,成本大幅降低。

Rubin CPX 的推出擴充套件了 Vera Rubin 機架系列,提供了三種配置:VR200 NVL144(僅 R200)、VR200 NVL144 CPX(混合 R200 和 CPX)以及雙機架方案(獨立 VR200 NVL144 和 VR CPX 機架)。混合機架在每個計算托盤內整合 4 個 R200 和 8 個 CPX,總功率約 370kW。雙機架方案允許客戶靈活調整預填充與解碼的比例,並降低故障影響範圍。

預填充專用硬體的優勢在於其成本效益。由於預填充階段記憶體頻寬利用率低,使用昂貴的 HBM 是一種浪費。Rubin CPX 透過使用更便宜的 GDDR7 和更簡單的封裝(無需 CoWoS),將每 GB 記憶體成本降低 50% 以上。此外,它僅透過 PCIe Gen 6 連線,避免了昂貴的 NVLink 交換機和背板,每個 GPU 可節省約 8000 美元的系統成本。

這種專業化設計推動了分解式服務的發展。傳統方法將預填充和解碼放在同一硬體上會導致資源競爭和效率低下。使用 Rubin CPX 進行預填充,R200 專注於解碼,可以最佳化每種工作負載,降低總擁有成本(TCO)。例如,在預填充場景下,R200 的記憶體頻寬利用率可能低至個位數,造成每小時 0.90 美元的浪費,而 Rubin CPX 則大大減少了這種浪費。

Nvidia 的這一舉措給競爭對手帶來了巨大壓力。AMD 的 MI400 系列雖然接近 Nvidia 的機架規模,但現在需要開發自己的預填充晶片,否則將在 token 經濟中落後。Google TPU 憑藉其 3D Torus 網路具有優勢,但同樣需要預填充專用晶片來保持每美元效能。AWS Trainium3 和 Meta MTIAv4 等自研晶片專案也需要重新考慮路線圖,增加預填充晶片的開發。

儘管 Rubin CPX 顯著降低了推理成本,但也存在一些缺點。固定比例的混合機架限制了靈活性,而雙機架方案需要更多空間和網路連線。此外,隨著模型和需求的變化,最佳化預填充與解碼的比例可能是一項挑戰。然而,Nvidia 透過持續創新再次拉大了與競爭對手的差距,將對手送回繪圖板重新設計。

總之,Rubin CPX 代表了 AI 推理硬體的重大進步,透過專業化分解式服務降低了成本並提高了效率。隨著 Nvidia 繼續推動 Huang 定律,未來的發展可能包括解碼專用晶片,進一步最佳化推理工作負載。