DGX工作站與“前沿”模型:深度調查本地AI的真相
本文深入調查NVIDIA DGX工作站的實際能力,揭露其748GB統一記憶體中僅252GB為高速HBM3e,其餘為低速LPDDR5X。透過Cornell、Snowflake等使用案例和GLM-5.2等基準測試,探討其能否承載本地前沿模型推理。
NVIDIA聲稱DGX工作站支援高達1萬億引數的模型,但真正的效能需要深入剖析。本調查基於與Cornell研究人員、NVIDIA代表、社群專家的交流,以及公開基準和論壇討論,揭示這個本地AI裝置的真實面貌。
DGX工作站搭載GB300 Grace Blackwell Ultra,擁有748GB統一記憶體。但關鍵記憶體層級劃分是:僅252GB為HBM3e(頻寬7.1TB/s),其餘496GB為LPDDR5X(頻寬396GB/s)。這並非全部GPU級高速記憶體。Stas Bekman實測NVLink-C2C雙向頻寬未達900GB/s標稱值,提示營銷數字與真實工作負載存在差距。當模型或KV快取超出HBM時,效能將受制於慢速記憶體和互聯延遲。
價格約10萬美元。對比方案包括:多GPU RTX PRO 6000系統(更常規VRAM但組裝複雜)、雲推理(無硬體成本但按token付費)、Mac Studio(大量可定址記憶體但頻寬低)、DGX Spark叢集(更便宜但記憶體互聯不同)。核心問題並非“模型能否載入”,而是“在足夠速度、上下文長度和併發下,能否執行有用本地前沿工作負載以證明六位數投資”。
社群質疑集中於:DGX工作站並未提供748GB VRAM,而是252GB HBM加496GB LPDDR5X。在Reddit和NVIDIA論壇上,使用者要求看到權重或上下文超出HBM3e時的實際tokens/sec基準。這要求關注預填充、解碼、長上下文和併發效能的變化。
實際使用案例提供了訊號。Cornell大學Kilian Weinberger組在DGX上進行強化學習微調、擴散語言模型檢索和合成資料生成。其中Qwen3-30B-A3B-Instruct在BF16下使用vLLM達到單A100的5.7倍吞吐量(4xA100的2.6倍)。Snowflake的Stas Bekman和Jeff Rasley在單臺DGX上完成Qwen3-32B 136K序列長度後訓練,利用CPU記憶體解除安裝最佳化器狀態。這些案例展示了訓練和研究負載的潛力,但未解答前沿模型推理問題。
公開基準中最受關注的是AI Engineer展臺的GLM-5.2 REAP模型,達到約60 token/s。但需注意:這是經過專家剪枝的504B引數版本(REAP),而非完整1T模型。NVIDIA代表提供的Kimi 2.5(1.1T引數)約40-50 tok/s(全使用者合計),Nemotron Ultra(550B引數)約35 tok/s(併發1),但測試條件不全。這些數字不能簡單比較。
總之,DGX工作站是功能強大的機器,但其“1萬億引數”承諾需謹慎對待。買家應關注具體工作負載下的實際效能,而非營銷口號。隨著更多使用者獲得硬體,期待更全面的基準資料。