AI News HubLIVE
站內改寫2 分鐘閱讀

DGX工作站與“前沿”模型:深度調查本地AI的真相

本文深入調查NVIDIA DGX工作站的實際能力,揭露其748GB統一內存中僅252GB為高速HBM3e,其餘為低速LPDDR5X。通過Cornell、Snowflake等使用案例和GLM-5.2等基準測試,探討其能否承載本地前沿模型推理。

來源Hacker News AI作者: connorturland

NVIDIA聲稱DGX工作站支持高達1萬億參數的模型,但真正的性能需要深入剖析。本調查基於與Cornell研究人員、NVIDIA代表、社區專家的交流,以及公開基準和論壇討論,揭示這個本地AI設備的真實面貌。

DGX工作站搭載GB300 Grace Blackwell Ultra,擁有748GB統一內存。但關鍵內存層級劃分是:僅252GB為HBM3e(帶寬7.1TB/s),其餘496GB為LPDDR5X(帶寬396GB/s)。這並非全部GPU級高速內存。Stas Bekman實測NVLink-C2C雙向帶寬未達900GB/s標稱值,提示營銷數字與真實工作負載存在差距。當模型或KV緩存超出HBM時,性能將受制於慢速內存和互聯延遲。

價格約10萬美元。對比方案包括:多GPU RTX PRO 6000系統(更常規VRAM但組裝複雜)、雲推理(無硬件成本但按token付費)、Mac Studio(大量可尋址內存但帶寬低)、DGX Spark集羣(更便宜但內存互聯不同)。核心問題並非“模型能否加載”,而是“在足夠速度、上下文長度和併發下,能否運行有用本地前沿工作負載以證明六位數投資”。

社區質疑集中於:DGX工作站並未提供748GB VRAM,而是252GB HBM加496GB LPDDR5X。在Reddit和NVIDIA論壇上,用户要求看到權重或上下文超出HBM3e時的實際tokens/sec基準。這要求關注預填充、解碼、長上下文和併發性能的變化。

實際使用案例提供了信號。Cornell大學Kilian Weinberger組在DGX上進行強化學習微調、擴散語言模型檢索和合成數據生成。其中Qwen3-30B-A3B-Instruct在BF16下使用vLLM達到單A100的5.7倍吞吐量(4xA100的2.6倍)。Snowflake的Stas Bekman和Jeff Rasley在單台DGX上完成Qwen3-32B 136K序列長度後訓練,利用CPU內存卸載優化器狀態。這些案例展示了訓練和研究負載的潛力,但未解答前沿模型推理問題。

公開基準中最受關注的是AI Engineer展台的GLM-5.2 REAP模型,達到約60 token/s。但需注意:這是經過專家剪枝的504B參數版本(REAP),而非完整1T模型。NVIDIA代表提供的Kimi 2.5(1.1T參數)約40-50 tok/s(全用户合計),Nemotron Ultra(550B參數)約35 tok/s(併發1),但測試條件不全。這些數字不能簡單比較。

總之,DGX工作站是功能強大的機器,但其“1萬億參數”承諾需謹慎對待。買家應關注具體工作負載下的實際性能,而非營銷口號。隨着更多用户獲得硬件,期待更全面的基準數據。