AI News HubLIVE
サイト内リライト2 分で読了

DGX Stationと「フロンティア」モデル:答えを求める旅

NVIDIA DGX Stationの実際の能力を調査。748GBコヒーレントメモリのうち高速HBM3eは252GBのみで残りは低速LPDDR5X。CornellやSnowflakeの使用例、GLM-5.2などのベンチマークを通じて、ローカルフロンティア推論の可能性を探る。

ソースHacker News AI著者: connorturland

NVIDIAはDGX Stationが最大1兆パラメータのモデルをサポートすると主張するが、その実力を徹底的に調査する。本記事はCornellの研究者、NVIDIA担当者、コミュニティ専門家との対話、公開ベンチマークやフォーラムの議論に基づき、このローカルAIデバイスの実態を明らかにする。

DGX StationはGB300 Grace Blackwell Ultraを搭載し、748GBのコヒーレントメモリを備える。しかし重要なメモリ階層は、高速HBM3e(帯域幅7.1TB/s)が252GBのみで、残りの496GBは低速LPDDR5X(帯域幅396GB/s)である。これはすべてGPU級の高速メモリではない。Stas BekmanのNVLink-C2C双方向テストでは公称900GB/sに達せず、マーケティング数字と実際のワークロード性能の乖離が示唆される。モデルやKVキャッシュがHBMを超えると、低速メモリとインターコネクトのレイテンシが性能を制限する。

価格は1台約10万ドル。競合として、マルチGPU RTX PRO 6000システム(従来型VRAMだが組み立て複雑)、クラウド推論(ハードウェア所有不要だがトークン課金)、Mac Studio(大容量アドレス可能メモリだが低帯域)、DGX Sparkクラスター(安価だがメモリと相互接続にトレードオフ)が挙げられる。購入の核心は「モデルを搭載できるか」ではなく、「十分な速度、コンテキスト長、同時実行数でローカルフロンティア級ワークロードを実行し、6桁の投資を正当化できるか」である。

コミュニティの懐疑論は、DGX Stationが実際には748GBのVRAMを持たず、252GB HBMと496GB LPDDR5Xの階層構成である点に集中している。RedditやNVIDIAフォーラムでは、重みやコンテキストがHBM3eを超えた場合の実際のトークン/秒ベンチマークが求められている。プリフィル、デコード、長コンテキスト、同時実行数の変化が重要基準となる。

実際の使用例からは有望なシグナルが得られている。Cornell大学Kilian WeinbergerグループはDGXで強化学習ファインチューニング、拡散言語モデル検索、合成データ生成を実施。Qwen3-30B-A3B-InstructをBF16でvLLM実行し、単一A100の5.7倍(4xA100の2.6倍)のスループットを達成。SnowflakeのStas BekmanとJeff Rasleyは単一DGXでQwen3-32Bの136Kシーケンス長後処理を完了し、CPUメモリへのオプティマイザー状態オフロードを活用した。これらは訓練や研究ワークロードでの有用性を示すが、フロンティアモデル推論の問いには答えていない。

公開ベンチマークで最も注目されたのは、AI EngineerブースでのGLM-5.2 REAPモデルによる約60トークン/秒の結果である。ただし、これはエキスパートプルーニングを施した504Bパラメータ版(REAP)であり、完全な1Tモデルではない。NVIDIA担当者提供のKimi 2.5(1.1Tパラメータ)は全ユーザー合計で40-50 tok/s、Nemotron Ultra(550Bパラメータ)は同時実行数1で約35 tok/sだが、テスト条件は不明瞭である。これらの数値は単純比較すべきではない。

結論として、DGX Stationは強力なマシンだが、「1兆パラメータ対応」という主張は慎重に受け止めるべきである。購入者は特定のワークロードにおける実際の性能を重視し、マーケティング文句に惑わされないことが重要だ。より多くのユーザーがハードウェアを入手すれば、包括的なベンチマークが期待される。