深度解析 LPU:Groq 速度背後的秘密
Groq 的 LPU 是專為推理設計的硬件,通過 TruePoint 數字、SRAM 存儲、靜態調度和實時張量並行等技術,在不犧牲精度的情況下實現超低延遲推理。Moonshot 的 Kimi K2 模型在 Groq 上以 40 倍性能運行,展示了 LPU 架構的優勢。
Groq 的博客文章深入解析了其 LPU(語言處理單元)架構如何實現極低的推理延遲,同時保持模型精度。文章指出,傳統 GPU 架構針對訓練優化,在推理時不得不犧牲精度換取速度,而 LPU 通過硬件和軟件的協同設計,從根本上解決了這一矛盾。
TruePoint 數字技術是 Groq 精度策略的核心。傳統加速器採用激進的量化(如 INT8)以提高速度,但引入了累積誤差。TruePoint 通過 100 位中間累加保證無損計算,並利用編譯器策略在注意力 logits 中使用 FP32,在專家混合(MoE)權重中使用 Block Floating Point,在容錯層中使用 FP8 存儲。這使得推理速度比 BF16 快 2-4 倍,且在 MMLU 和 HumanEval 等基準測試中沒有明顯的精度損失。
內存架構方面,LPU 以數百兆字節的片上 SRAM 作為主存儲器,而不是傳統加速器使用的 DRAM 或 HBM。SRAM 訪問延遲僅為幾十納秒,遠低於內存幾百納秒的延遲,同時支持張量並行,將單個層分割到多個芯片上,進一步加速推理。
執行模型上,LPU 採用靜態調度。編譯器預先計算整個執行圖,包括芯片間通信模式,細化到單個時鐘週期。這消除了緩存一致性、重排序緩衝區、投機執行和運行時協調等開銷,使得確定性執行成為可能。靜態調度支持兩種關鍵優化:張量並行(無尾延遲)和流水線並行(層 N+1 在層 N 完成前開始處理)。
並行策略上,Groq 強調張量並行而非數據並行。數據並行提高吞吐量但不降低單個請求的延遲,而張量並行將單個操作分佈到多個處理器,顯著減少推理延遲。這也是 Moonshot AI 的 Kimi K2 模型(萬億參數)能在 Groq 上實現實時生成的原因。此外,LPU 的架構高效支持投機解碼,通過快速草稿模型預測多個 token,然後一次性驗證,進一步提升性能。
在芯片互連方面,Groq 的 RealScale 使用準同步芯片間協議,消除時鐘漂移,使數百個 LPU 如同單個核心一樣工作。編譯器能夠精確預測數據到達時間,從而進行網絡調度。
最後,Groq 強調了其與合作伙伴 Moonshot AI 的成果:Kimi K2 在 72 小時內以 40 倍性能運行。Groq 還發布了開源框架 OpenBench 以驗證模型質量,並鼓勵開發者嘗試其服務。文章中列出了相關基準測試結果,顯示 Groq 在精度上不遜於 GPU 方案。