AI News HubLIVE
サイト内リライト2 分で読了

LPUの内部構造:Groqの速度を解き明かす

GroqのLPUは推論専用に設計されたハードウェアであり、TruePoint数値方式、SRAMストレージ、静的スケジューリング、テンソル並列処理などを通じて、精度を犠牲にすることなく超低遅延推論を実現します。MoonshotのKimi K2はGroq上で40倍のパフォーマンスを発揮し、LPUアーキテクチャの優位性を示しています。

ソースGroq Blog

Groqのブログ記事では、LPU(Language Processing Unit)アーキテクチャが、モデルの精度を維持しながら推論レイテンシを極限まで低減する仕組みを詳しく解説している。従来のGPUアーキテクチャは訓練に最適化されているため、推論時に速度と精度のトレードオフが生じるが、LPUはハードウェアとソフトウェアの協調設計により、この問題を根本的に解決する。

精度戦略の中核はTruePoint数値方式である。従来のアクセラレータはINT8などの積極的な量子化で速度を稼ぐが、累積誤差が生じる。TruePointは100ビットの中間累算で損失のない計算を保証し、コンパイラ戦略により、アテンションlogitsにはFP32、Mixture-of-Experts(MoE)の重みにはBlock Floating Point、エラー耐性のある層の活性化にはFP8を選択的に使用する。これにより、MMLUやHumanEvalなどのベンチマークで測定可能な精度低下なしに、BF16比2~4倍の高速化を実現する。

メモリ構成に関して、LPUは主記憶にオンチップSRAM(数百メガバイト)を採用し、DRAMやHBMに依存しない。SRAMのアクセスレイテンシは数十ナノ秒と、数百ナノ秒のメモリよりも格段に低く、テンソル並列(単一層を複数チップに分割)を効率的にサポートする。

実行モデルは静的スケジューリングを採用。コンパイラがチップ間通信パターンを含む実行グラフ全体をクロックサイクル単位で事前計算し、キャッシュコヒーレンシ、リオーダバッファ、投機的実行、ランタイム調整などのオーバーヘッドを排除する。これにより、テールレイテンシのないテンソル並列や、層N+1が層Nの完了前に処理を開始するパイプライン並列が可能となる。

並列戦略では、データ並列ではなくテンソル並列を重視。データ並列はスループットを向上させるが単一リクエストのレイテンシを改善しないのに対し、テンソル並列は個々の演算を複数プロセッサに分散し、推論遅延を大幅に削減する。これは、Moonshot AIのKimi K2(1兆パラメータ)がGroq上でリアルタイム生成を実現した理由である。さらに、LPUのアーキテクチャは投機的デコードを効率的にサポートし、高速なドラフトモデルを用いて複数トークンを予測・検証することで性能を高める。

チップ間相互接続では、GroqのRealScaleが準同期プロトコルを採用し、クロックドリフトを相殺して数百のLPUを単一コアのように連携させる。コンパイラはデータ到着時刻を正確に予測できるため、ネットワークスケジューリングも可能となる。

最後に、GroqはパートナーMoonshot AIとの成果として、Kimi K2が72時間で40倍の性能を達成したことを強調。また、モデル品質検証のためのオープンソースフレームワーク「OpenBench」を公開し、開発者にサービスの試用を呼びかけている。記事では、Groqの精度がGPUプロバイダと同等であることを示すベンチマーク結果も紹介されている。