AI News HubLIVE
站内改写2 分钟阅读

深度解析 LPU:Groq 速度背后的秘密

Groq 的 LPU 是专为推理设计的硬件,通过 TruePoint 数字、SRAM 存储、静态调度和实时张量并行等技术,在不牺牲精度的情况下实现超低延迟推理。Moonshot 的 Kimi K2 模型在 Groq 上以 40 倍性能运行,展示了 LPU 架构的优势。

来源Groq Blog

Groq 的博客文章深入解析了其 LPU(语言处理单元)架构如何实现极低的推理延迟,同时保持模型精度。文章指出,传统 GPU 架构针对训练优化,在推理时不得不牺牲精度换取速度,而 LPU 通过硬件和软件的协同设计,从根本上解决了这一矛盾。

TruePoint 数字技术是 Groq 精度策略的核心。传统加速器采用激进的量化(如 INT8)以提高速度,但引入了累积误差。TruePoint 通过 100 位中间累加保证无损计算,并利用编译器策略在注意力 logits 中使用 FP32,在专家混合(MoE)权重中使用 Block Floating Point,在容错层中使用 FP8 存储。这使得推理速度比 BF16 快 2-4 倍,且在 MMLU 和 HumanEval 等基准测试中没有明显的精度损失。

内存架构方面,LPU 以数百兆字节的片上 SRAM 作为主存储器,而不是传统加速器使用的 DRAM 或 HBM。SRAM 访问延迟仅为几十纳秒,远低于内存几百纳秒的延迟,同时支持张量并行,将单个层分割到多个芯片上,进一步加速推理。

执行模型上,LPU 采用静态调度。编译器预先计算整个执行图,包括芯片间通信模式,细化到单个时钟周期。这消除了缓存一致性、重排序缓冲区、投机执行和运行时协调等开销,使得确定性执行成为可能。静态调度支持两种关键优化:张量并行(无尾延迟)和流水线并行(层 N+1 在层 N 完成前开始处理)。

并行策略上,Groq 强调张量并行而非数据并行。数据并行提高吞吐量但不降低单个请求的延迟,而张量并行将单个操作分布到多个处理器,显著减少推理延迟。这也是 Moonshot AI 的 Kimi K2 模型(万亿参数)能在 Groq 上实现实时生成的原因。此外,LPU 的架构高效支持投机解码,通过快速草稿模型预测多个 token,然后一次性验证,进一步提升性能。

在芯片互连方面,Groq 的 RealScale 使用准同步芯片间协议,消除时钟漂移,使数百个 LPU 如同单个核心一样工作。编译器能够精确预测数据到达时间,从而进行网络调度。

最后,Groq 强调了其与合作伙伴 Moonshot AI 的成果:Kimi K2 在 72 小时内以 40 倍性能运行。Groq 还发布了开源框架 OpenBench 以验证模型质量,并鼓励开发者尝试其服务。文章中列出了相关基准测试结果,显示 Groq 在精度上不逊于 GPU 方案。