2026-07-03 11:48 UTC+8站内改写2 分钟阅读更新: 2026-07-03 12:37 UTC+8

DGX工作站与“前沿”模型：深度调查本地AI的真相

本文深入调查NVIDIA DGX工作站的实际能力，揭露其748GB统一内存中仅252GB为高速HBM3e，其余为低速LPDDR5X。通过Cornell、Snowflake等使用案例和GLM-5.2等基准测试，探讨其能否承载本地前沿模型推理。

来源Hacker News AI作者: connorturland

NVIDIA声称DGX工作站支持高达1万亿参数的模型，但真正的性能需要深入剖析。本调查基于与Cornell研究人员、NVIDIA代表、社区专家的交流，以及公开基准和论坛讨论，揭示这个本地AI设备的真实面貌。

DGX工作站搭载GB300 Grace Blackwell Ultra，拥有748GB统一内存。但关键内存层级划分是：仅252GB为HBM3e（带宽7.1TB/s），其余496GB为LPDDR5X（带宽396GB/s）。这并非全部GPU级高速内存。Stas Bekman实测NVLink-C2C双向带宽未达900GB/s标称值，提示营销数字与真实工作负载存在差距。当模型或KV缓存超出HBM时，性能将受制于慢速内存和互联延迟。

价格约10万美元。对比方案包括：多GPU RTX PRO 6000系统（更常规VRAM但组装复杂）、云推理（无硬件成本但按token付费）、Mac Studio（大量可寻址内存但带宽低）、DGX Spark集群（更便宜但内存互联不同）。核心问题并非“模型能否加载”，而是“在足够速度、上下文长度和并发下，能否运行有用本地前沿工作负载以证明六位数投资”。

社区质疑集中于：DGX工作站并未提供748GB VRAM，而是252GB HBM加496GB LPDDR5X。在Reddit和NVIDIA论坛上，用户要求看到权重或上下文超出HBM3e时的实际tokens/sec基准。这要求关注预填充、解码、长上下文和并发性能的变化。

实际使用案例提供了信号。Cornell大学Kilian Weinberger组在DGX上进行强化学习微调、扩散语言模型检索和合成数据生成。其中Qwen3-30B-A3B-Instruct在BF16下使用vLLM达到单A100的5.7倍吞吐量（4xA100的2.6倍）。Snowflake的Stas Bekman和Jeff Rasley在单台DGX上完成Qwen3-32B 136K序列长度后训练，利用CPU内存卸载优化器状态。这些案例展示了训练和研究负载的潜力，但未解答前沿模型推理问题。

公开基准中最受关注的是AI Engineer展台的GLM-5.2 REAP模型，达到约60 token/s。但需注意：这是经过专家剪枝的504B参数版本（REAP），而非完整1T模型。NVIDIA代表提供的Kimi 2.5（1.1T参数）约40-50 tok/s（全用户合计），Nemotron Ultra（550B参数）约35 tok/s（并发1），但测试条件不全。这些数字不能简单比较。

总之，DGX工作站是功能强大的机器，但其“1万亿参数”承诺需谨慎对待。买家应关注具体工作负载下的实际性能，而非营销口号。随着更多用户获得硬件，期待更全面的基准数据。