DGX工作站与“前沿”模型:深度调查本地AI的真相
本文深入调查NVIDIA DGX工作站的实际能力,揭露其748GB统一内存中仅252GB为高速HBM3e,其余为低速LPDDR5X。通过Cornell、Snowflake等使用案例和GLM-5.2等基准测试,探讨其能否承载本地前沿模型推理。
NVIDIA声称DGX工作站支持高达1万亿参数的模型,但真正的性能需要深入剖析。本调查基于与Cornell研究人员、NVIDIA代表、社区专家的交流,以及公开基准和论坛讨论,揭示这个本地AI设备的真实面貌。
DGX工作站搭载GB300 Grace Blackwell Ultra,拥有748GB统一内存。但关键内存层级划分是:仅252GB为HBM3e(带宽7.1TB/s),其余496GB为LPDDR5X(带宽396GB/s)。这并非全部GPU级高速内存。Stas Bekman实测NVLink-C2C双向带宽未达900GB/s标称值,提示营销数字与真实工作负载存在差距。当模型或KV缓存超出HBM时,性能将受制于慢速内存和互联延迟。
价格约10万美元。对比方案包括:多GPU RTX PRO 6000系统(更常规VRAM但组装复杂)、云推理(无硬件成本但按token付费)、Mac Studio(大量可寻址内存但带宽低)、DGX Spark集群(更便宜但内存互联不同)。核心问题并非“模型能否加载”,而是“在足够速度、上下文长度和并发下,能否运行有用本地前沿工作负载以证明六位数投资”。
社区质疑集中于:DGX工作站并未提供748GB VRAM,而是252GB HBM加496GB LPDDR5X。在Reddit和NVIDIA论坛上,用户要求看到权重或上下文超出HBM3e时的实际tokens/sec基准。这要求关注预填充、解码、长上下文和并发性能的变化。
实际使用案例提供了信号。Cornell大学Kilian Weinberger组在DGX上进行强化学习微调、扩散语言模型检索和合成数据生成。其中Qwen3-30B-A3B-Instruct在BF16下使用vLLM达到单A100的5.7倍吞吐量(4xA100的2.6倍)。Snowflake的Stas Bekman和Jeff Rasley在单台DGX上完成Qwen3-32B 136K序列长度后训练,利用CPU内存卸载优化器状态。这些案例展示了训练和研究负载的潜力,但未解答前沿模型推理问题。
公开基准中最受关注的是AI Engineer展台的GLM-5.2 REAP模型,达到约60 token/s。但需注意:这是经过专家剪枝的504B参数版本(REAP),而非完整1T模型。NVIDIA代表提供的Kimi 2.5(1.1T参数)约40-50 tok/s(全用户合计),Nemotron Ultra(550B参数)约35 tok/s(并发1),但测试条件不全。这些数字不能简单比较。
总之,DGX工作站是功能强大的机器,但其“1万亿参数”承诺需谨慎对待。买家应关注具体工作负载下的实际性能,而非营销口号。随着更多用户获得硬件,期待更全面的基准数据。