AI News HubLIVE
站内改写4 分で読了

Nvidia Groq 3:AI推論の時代が(おそらく)到来

Nvidiaは、AI推論専用に設計された初のチップ「Groq 3 LPU」を発表。SRAMメモリを内蔵したアーキテクチャにより、超低レイテンシを実現する。このチップはGroq社からライセンス供与された技術を採用し、Vera Rubin GPUと連携して推論分離技術を活用。AI業界の焦点がトレーニングから推論へと移行することを示している。

ソースHacker News AI著者: mdp2021

今週、3万人以上がカリフォルニア州サンノゼに集まり、Nvidia GTC(「AIのスーパーボウル」とも呼ばれるイベント)に参加しました。基調講演でNvidiaのCEOであるジェンスン・フアン氏は、次世代のVera Rubinチップの新ラインとともに、GPU大手としては初めてAI推論専用に設計されたチップ「Groq 3 LPU」を発表しました。このチップは、昨年のクリスマスイブにGroq社から200億ドルでライセンス供与された知的財産を統合しています。

フアン氏は「ついにAIは生産的な作業ができるようになり、推論の変曲点が到来しました。AIは今や考える必要があります。考えるためには推論が必要です。AIは今や行動する必要があります。行動するためには推論が必要です」と述べました。

トレーニングと推論のタスクは計算要件が根本的に異なります。トレーニングは大量のデータを同時に処理でき、数週間かかることもありますが、推論はユーザーのクエリが届いたときにリアルタイムで実行する必要があります。トレーニングとは異なり、推論にはコストのかかるバックプロパゲーションは不要です。推論で最も重要なのは低レイテンシです。ユーザーはチャットボットの迅速な応答を期待し、思考型または推論モデルでは、ユーザーが出力を目にする前に推論が何度も実行されます。

過去数年間、推論専用チップのスタートアップは「カンブリア爆発」的な状況を経験し、各社がさまざまなアプローチで高速化を模索してきました。D-matrix(デジタルインメモリコンピュート)、Etched(トランスフォーマー推論向けASIC)、Rain AI(ニューロモルフィックチップ)、EnCharge(アナログインメモリコンピュート)、Tensordyne(対数演算による効率化)、FuriosaAI(テンソル演算最適化)などがあります。昨年末、NvidiaはGroq社との契約を発表し、推論チップ群の中から勝者を選んだように見えました。それからわずか2か月半でGroq 3 LPUが公開され、急成長する推論市場の緊急性が浮き彫りになりました。

Groqの推論高速化アプローチは、チップ上で処理ユニットとメモリユニットを交互に配置することに依存しています。GPUの横にある高帯域幅メモリ(HBM)に頼る代わりに、プロセッサ内部に統合されたSRAMメモリを活用します。この設計により、チップ内のデータフローが大幅に簡素化され、効率的で線形的な流れが可能になります。Groqの元チーフテクノロジーエバンジェリストで現在Nvidiaのディレクターオブデベロッパーマーケティングを務めるMark Heaps氏は、2024年のスーパーコンピューティング会議で次のように述べています。「データは実際にSRAMを直接流れます。マルチコアGPUでは、多くの命令がチップ外に送られ、メモリにアクセスして戻ってくる必要があります。我々にはそれがありません。すべてが線形順序で通過します。」

SRAMを使用することで、その線形データフローが非常に高速になり、推論アプリケーションに必要な低レイテンシが実現されます。NvidiaのVP兼ハイパースケール&HPCゼネラルマネージャーであるIan Buck氏は、「LPUは極めて低いレイテンシでのトークン生成に完全に最適化されています」と述べています。

Rubin GPUとGroq 3 LPUを比較すると、その違いが明確になります。Rubin GPUは288 GBのHBMにアクセスでき、4ビット計算で50 petaFLOPSの性能を発揮します。一方、Groq 3 LPUはわずか500 MBのSRAMメモリを搭載し、8ビット計算で1.2 petaFLOPSです。しかし、Rubin GPUのメモリ帯域幅が22 TB/sであるのに対し、Groq 3 LPUは150 TB/sと7倍高速です。このスリムでスピード重視の設計により、LPUは推論に優れています。

新しい推論チップは、AI導入の継続的な傾向を強調しています。すなわち、計算負荷がより大きなモデルの構築から、それらのモデルの大規模利用へと移行しているのです。d-MatrixのCEO Sid Sheth氏は「Nvidiaの発表は、大規模推論におけるSRAMベースアーキテクチャの重要性を裏付けています。そして誰もd-MatrixほどSRAM密度を押し上げた企業はありません。データセンターのお客様は多様な推論プロセッサを求めるでしょう。成功するシステムは異なる種類のシリコンを組み合わせ、既存のデータセンターにGPUとともに簡単に収まるものになります」と述べています。

推論専用チップだけが解決策ではありません。先週末、Amazon Web Servicesはデータセンターに新しいタイプの推論システムを導入すると発表しました。このシステムはAWSのTranium AIアクセラレータとCerebras Systemsの第3世代コンピュータCS-3(これまでに作られた最大の単一チップをベースとする)を組み合わせたものです。この2部構成のシステムは、推論分離と呼ばれる手法を活用します。推論をプロンプト処理(プリフィル)と出力生成(デコード)の2つに分けます。プリフィルは本質的に並列で計算集約的であり、メモリ帯域幅をあまり必要としません。一方、デコードはよりシリアルなプロセスで、大量のメモリ帯域幅を必要とします。Cerebrasはチップ上に44 GBのSRAMを搭載し、21 PB/sのネットワークで接続することでメモリ帯域幅を最大化しています。

Nvidiaも、新しいコンピュートラック「Nvidia Groq 3 LPX」で推論分離を活用する予定です。各トレイには8基のGroq 3 LPUが搭載されます。LPXは、Nvidiaの既存のGPU・CPUラックであるVera Rubin NVL72と推論タスクを分割します。プリフィルとデコードの計算集約部分はVera Rubinで実行され、最終部分はGroq 3 LPUで実行され、各チップの強みを活かします。フアン氏は「現在量産中です」と述べました。

(本記事は2026年5月号の印刷版に「AI推論の時代がもうすぐ来る」として掲載されました。)