2026-07-03 11:48 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-03 12:37 UTC+8

DGX工作站與“前沿”模型：深度調查本地AI的真相

本文深入調查NVIDIA DGX工作站的實際能力，揭露其748GB統一內存中僅252GB為高速HBM3e，其餘為低速LPDDR5X。通過Cornell、Snowflake等使用案例和GLM-5.2等基準測試，探討其能否承載本地前沿模型推理。

來源Hacker News AI作者: connorturland

NVIDIA聲稱DGX工作站支持高達1萬億參數的模型，但真正的性能需要深入剖析。本調查基於與Cornell研究人員、NVIDIA代表、社區專家的交流，以及公開基準和論壇討論，揭示這個本地AI設備的真實面貌。

DGX工作站搭載GB300 Grace Blackwell Ultra，擁有748GB統一內存。但關鍵內存層級劃分是：僅252GB為HBM3e（帶寬7.1TB/s），其餘496GB為LPDDR5X（帶寬396GB/s）。這並非全部GPU級高速內存。Stas Bekman實測NVLink-C2C雙向帶寬未達900GB/s標稱值，提示營銷數字與真實工作負載存在差距。當模型或KV緩存超出HBM時，性能將受制於慢速內存和互聯延遲。

價格約10萬美元。對比方案包括：多GPU RTX PRO 6000系統（更常規VRAM但組裝複雜）、雲推理（無硬件成本但按token付費）、Mac Studio（大量可尋址內存但帶寬低）、DGX Spark集羣（更便宜但內存互聯不同）。核心問題並非“模型能否加載”，而是“在足夠速度、上下文長度和併發下，能否運行有用本地前沿工作負載以證明六位數投資”。

社區質疑集中於：DGX工作站並未提供748GB VRAM，而是252GB HBM加496GB LPDDR5X。在Reddit和NVIDIA論壇上，用户要求看到權重或上下文超出HBM3e時的實際tokens/sec基準。這要求關注預填充、解碼、長上下文和併發性能的變化。

實際使用案例提供了信號。Cornell大學Kilian Weinberger組在DGX上進行強化學習微調、擴散語言模型檢索和合成數據生成。其中Qwen3-30B-A3B-Instruct在BF16下使用vLLM達到單A100的5.7倍吞吐量（4xA100的2.6倍）。Snowflake的Stas Bekman和Jeff Rasley在單台DGX上完成Qwen3-32B 136K序列長度後訓練，利用CPU內存卸載優化器狀態。這些案例展示了訓練和研究負載的潛力，但未解答前沿模型推理問題。

公開基準中最受關注的是AI Engineer展台的GLM-5.2 REAP模型，達到約60 token/s。但需注意：這是經過專家剪枝的504B參數版本（REAP），而非完整1T模型。NVIDIA代表提供的Kimi 2.5（1.1T參數）約40-50 tok/s（全用户合計），Nemotron Ultra（550B參數）約35 tok/s（併發1），但測試條件不全。這些數字不能簡單比較。

總之，DGX工作站是功能強大的機器，但其“1萬億參數”承諾需謹慎對待。買家應關注具體工作負載下的實際性能，而非營銷口號。隨着更多用户獲得硬件，期待更全面的基準數據。