又一巨大飞跃:Rubin CPX 专用加速器及机架
Nvidia 发布了 Rubin CPX,这是一款专门为预填充阶段优化的解决方案,单芯片 Rubin CPX 重点强调计算 FLOPS 而非内存带宽。这对推理来说是游戏规则的改变者,其重要性仅次于 2024 年 3 月发布的 GB200 NVL72 Oberon 机架级形态。只有为推理的预填充和解码这两个截然不同的阶段定制硬件,才能充分发挥分解式服务的潜力。Nvidia 的机架系统设计差距已变得如鸿沟般巨大,竞争对手需要重新调整路线图。
Nvidia 在 AI 基础设施峰会上宣布了 Rubin CPX,这是一款专门针对推理预填充阶段优化的 GPU。与传统的通用 GPU 不同,Rubin CPX 的设计目标是最大化计算吞吐量,同时降低内存带宽,因为预填充阶段主要是计算密集型,对内存带宽的需求较低。它提供 20 PFLOPS 的 FP4 密集计算能力,但内存带宽仅为 2 TB/s,搭载 128GB 的 GDDR7 内存,与使用昂贵 HBM 的 R200 相比,成本大幅降低。
Rubin CPX 的推出扩展了 Vera Rubin 机架系列,提供了三种配置:VR200 NVL144(仅 R200)、VR200 NVL144 CPX(混合 R200 和 CPX)以及双机架方案(独立 VR200 NVL144 和 VR CPX 机架)。混合机架在每个计算托盘内集成 4 个 R200 和 8 个 CPX,总功率约 370kW。双机架方案允许客户灵活调整预填充与解码的比例,并降低故障影响范围。
预填充专用硬件的优势在于其成本效益。由于预填充阶段内存带宽利用率低,使用昂贵的 HBM 是一种浪费。Rubin CPX 通过使用更便宜的 GDDR7 和更简单的封装(无需 CoWoS),将每 GB 内存成本降低 50% 以上。此外,它仅通过 PCIe Gen 6 连接,避免了昂贵的 NVLink 交换机和背板,每个 GPU 可节省约 8000 美元的系统成本。
这种专业化设计推动了分解式服务的发展。传统方法将预填充和解码放在同一硬件上会导致资源竞争和效率低下。使用 Rubin CPX 进行预填充,R200 专注于解码,可以优化每种工作负载,降低总拥有成本(TCO)。例如,在预填充场景下,R200 的内存带宽利用率可能低至个位数,造成每小时 0.90 美元的浪费,而 Rubin CPX 则大大减少了这种浪费。
Nvidia 的这一举措给竞争对手带来了巨大压力。AMD 的 MI400 系列虽然接近 Nvidia 的机架规模,但现在需要开发自己的预填充芯片,否则将在 token 经济中落后。Google TPU 凭借其 3D Torus 网络具有优势,但同样需要预填充专用芯片来保持每美元性能。AWS Trainium3 和 Meta MTIAv4 等自研芯片项目也需要重新考虑路线图,增加预填充芯片的开发。
尽管 Rubin CPX 显著降低了推理成本,但也存在一些缺点。固定比例的混合机架限制了灵活性,而双机架方案需要更多空间和网络连接。此外,随着模型和需求的变化,优化预填充与解码的比例可能是一项挑战。然而,Nvidia 通过持续创新再次拉大了与竞争对手的差距,将对手送回绘图板重新设计。
总之,Rubin CPX 代表了 AI 推理硬件的重大进步,通过专业化分解式服务降低了成本并提高了效率。随着 Nvidia 继续推动 Huang 定律,未来的发展可能包括解码专用芯片,进一步优化推理工作负载。