2026-07-03 11:48 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-03 12:37 UTC+8

DGX工作站與“前沿”模型：深度調查本地AI的真相

本文深入調查NVIDIA DGX工作站的實際能力，揭露其748GB統一記憶體中僅252GB為高速HBM3e，其餘為低速LPDDR5X。透過Cornell、Snowflake等使用案例和GLM-5.2等基準測試，探討其能否承載本地前沿模型推理。

來源Hacker News AI作者: connorturland

文章情報

工程師進階

要點

DGX工作站擁有748GB統一記憶體，但僅252GB為高速HBM3e（7.1TB/s），496GB為低速LPDDR5X（396GB/s），NVLink-C2C實測未達標稱900GB/s。
售價約10萬美元，與多GPU RTX PRO 6000、雲推理及Mac Studio等方案競爭，買家需評估是否值得。
Cornell團隊在DGX上實現Qwen3-30B-A3B 5.7倍於A100的吞吐量，Snowflake完成136K序列長度微調；但GLM-5.2 REAP僅60 tok/s，且為剪枝版本。

為什麼重要

這條新聞值得關注，因為DGX工作站擁有748GB統一記憶體，但僅252GB為高速HBM3e（7.1TB/s），496GB為低速LPDDR5X（396GB/s），NVLink-C2C實測未達標稱900GB/s。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

NVIDIA聲稱DGX工作站支援高達1萬億引數的模型，但真正的效能需要深入剖析。本調查基於與Cornell研究人員、NVIDIA代表、社群專家的交流，以及公開基準和論壇討論，揭示這個本地AI裝置的真實面貌。

DGX工作站搭載GB300 Grace Blackwell Ultra，擁有748GB統一記憶體。但關鍵記憶體層級劃分是：僅252GB為HBM3e（頻寬7.1TB/s），其餘496GB為LPDDR5X（頻寬396GB/s）。這並非全部GPU級高速記憶體。Stas Bekman實測NVLink-C2C雙向頻寬未達900GB/s標稱值，提示營銷數字與真實工作負載存在差距。當模型或KV快取超出HBM時，效能將受制於慢速記憶體和互聯延遲。

價格約10萬美元。對比方案包括：多GPU RTX PRO 6000系統（更常規VRAM但組裝複雜）、雲推理（無硬體成本但按token付費）、Mac Studio（大量可定址記憶體但頻寬低）、DGX Spark叢集（更便宜但記憶體互聯不同）。核心問題並非“模型能否載入”，而是“在足夠速度、上下文長度和併發下，能否執行有用本地前沿工作負載以證明六位數投資”。

社群質疑集中於：DGX工作站並未提供748GB VRAM，而是252GB HBM加496GB LPDDR5X。在Reddit和NVIDIA論壇上，使用者要求看到權重或上下文超出HBM3e時的實際tokens/sec基準。這要求關注預填充、解碼、長上下文和併發效能的變化。

實際使用案例提供了訊號。Cornell大學Kilian Weinberger組在DGX上進行強化學習微調、擴散語言模型檢索和合成資料生成。其中Qwen3-30B-A3B-Instruct在BF16下使用vLLM達到單A100的5.7倍吞吐量（4xA100的2.6倍）。Snowflake的Stas Bekman和Jeff Rasley在單臺DGX上完成Qwen3-32B 136K序列長度後訓練，利用CPU記憶體解除安裝最佳化器狀態。這些案例展示了訓練和研究負載的潛力，但未解答前沿模型推理問題。

公開基準中最受關注的是AI Engineer展臺的GLM-5.2 REAP模型，達到約60 token/s。但需注意：這是經過專家剪枝的504B引數版本（REAP），而非完整1T模型。NVIDIA代表提供的Kimi 2.5（1.1T引數）約40-50 tok/s（全使用者合計），Nemotron Ultra（550B引數）約35 tok/s（併發1），但測試條件不全。這些數字不能簡單比較。

總之，DGX工作站是功能強大的機器，但其“1萬億引數”承諾需謹慎對待。買家應關注具體工作負載下的實際效能，而非營銷口號。隨著更多使用者獲得硬體，期待更全面的基準資料。