2026-05-15 10:12 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

深度解析 LPU：Groq 速度背後的秘密

Groq 的 LPU 是專為推理設計的硬體，透過 TruePoint 數字、SRAM 儲存、靜態排程和即時張量並行等技術，在不犧牲精度的情況下實現超低延遲推理。Moonshot 的 Kimi K2 模型在 Groq 上以 40 倍效能執行，展示了 LPU 架構的優勢。

來源Groq Blog

Groq 的部落格文章深入解析了其 LPU（語言處理單元）架構如何實現極低的推理延遲，同時保持模型精度。文章指出，傳統 GPU 架構針對訓練最佳化，在推理時不得不犧牲精度換取速度，而 LPU 透過硬體和軟體的協同設計，從根本上解決了這一矛盾。

TruePoint 數字技術是 Groq 精度策略的核心。傳統加速器採用激進的量化（如 INT8）以提高速度，但引入了累積誤差。TruePoint 透過 100 位中間累加保證無損計算，並利用編譯器策略在注意力 logits 中使用 FP32，在專家混合（MoE）權重中使用 Block Floating Point，在容錯層中使用 FP8 儲存。這使得推理速度比 BF16 快 2-4 倍，且在 MMLU 和 HumanEval 等基準測試中沒有明顯的精度損失。

記憶體架構方面，LPU 以數百兆位元組的片上 SRAM 作為主儲存器，而不是傳統加速器使用的 DRAM 或 HBM。SRAM 訪問延遲僅為幾十納秒，遠低於記憶體幾百納秒的延遲，同時支援張量並行，將單個層分割到多個晶片上，進一步加速推理。

執行模型上，LPU 採用靜態排程。編譯器預先計算整個執行圖，包括晶片間通訊模式，細化到單個時鐘週期。這消除了快取一致性、重排序緩衝區、投機執行和執行時協調等開銷，使得確定性執行成為可能。靜態排程支援兩種關鍵最佳化：張量並行（無尾延遲）和流水線並行（層 N+1 在層 N 完成前開始處理）。

並行策略上，Groq 強調張量並行而非資料並行。資料並行提高吞吐量但不降低單個請求的延遲，而張量並行將單個操作分佈到多個處理器，顯著減少推理延遲。這也是 Moonshot AI 的 Kimi K2 模型（萬億引數）能在 Groq 上實現即時生成的原因。此外，LPU 的架構高效支援投機解碼，透過快速草稿模型預測多個 token，然後一次性驗證，進一步提升效能。

在晶片互連方面，Groq 的 RealScale 使用準同步晶片間協議，消除時鐘漂移，使數百個 LPU 如同單個核心一樣工作。編譯器能夠精確預測資料到達時間，從而進行網路排程。

最後，Groq 強調了其與合作伙伴 Moonshot AI 的成果：Kimi K2 在 72 小時內以 40 倍效能執行。Groq 還發布了開源框架 OpenBench 以驗證模型質量，並鼓勵開發者嘗試其服務。文章中列出了相關基準測試結果，顯示 Groq 在精度上不遜於 GPU 方案。