2026-06-03 13:36 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

英伟达Groq 3：AI推理时代（可能）来临

英伟达发布Groq 3语言处理单元（LPU），专为AI推理设计，采用SRAM内存架构实现极低延迟。该芯片基于从Groq公司授权的技术，与Vera Rubin GPU配合使用，通过推理分离技术优化性能，标志着AI推理市场进入新阶段。

来源Hacker News AI作者: mdp2021

本周，超过3万人聚集在加州圣何塞参加英伟达GTC大会——这场被称为“AI界超级碗”的盛会。在主题演讲中，英伟达CEO黄仁勋宣布推出新一代Vera Rubin芯片，并特别介绍了Groq 3语言处理单元（LPU）。这是英伟达首款专为AI推理设计的芯片，集成了去年圣诞节前夕以200亿美元从Groq公司获得授权的技术。

黄仁勋在演讲中表示：“AI终于能够进行生产性工作，因此推理的转折点已经到来。AI现在需要思考，而思考就需要推理；AI现在需要行动，而行动就需要推理。”

训练和推理任务对计算资源的要求截然不同。训练可以同时处理海量数据并耗时数周，而推理必须在用户查询到达时实时运行。与训练不同，推理不需要昂贵的反向传播。对于推理而言，最重要的是低延迟——用户期望聊天机器人快速响应，而对于思考或推理模型，在用户看到输出之前，推理可能已运行多次。

过去几年，专用推理芯片初创公司经历了“寒武纪大爆发”，各种公司探索不同的加速方法，包括D-matrix的数字内存计算、Etched的变压器推理ASIC、Rain AI的神经形态芯片、EnCharge的模拟内存计算、Tensordyne的对数数学优化、FuriosaAI的张量操作硬件等。去年年底，英伟达与Groq达成协议，似乎已从众多推理芯片中挑选了一个赢家。仅在两个半月后，英伟达就发布了Groq 3 LPU，凸显了推理市场增长的紧迫性。

Groq加速推理的方法是将处理单元与内存单元交错集成在芯片上。它不依赖GPU旁的高带宽内存（HBM），而是使用集成在处理器内部的SRAM内存。这种设计极大地简化了数据流，使其能够以流线型的线性方式运行。Groq前首席技术布道师、现任英伟达开发者营销总监Mark Heaps在2024年的超级计算会议上解释说：“数据实际上直接流经SRAM。而在多核GPU上，许多指令需要发送到片外内存再返回。我们没有这个问题，所有数据以线性顺序通过。”

使用SRAM使线性数据流异常快速，从而实现推理所需的低延迟。英伟达副总裁兼超大规模与高性能计算总经理Ian Buck表示：“LPU专门优化用于极低延迟的令牌生成。”

对比Rubin GPU和Groq 3 LPU可以凸显差异。Rubin GPU拥有288 GB的HBM，4位计算能力为50 petaFLOPS；而Groq 3 LPU仅包含500 MB SRAM，8位计算能力为1.2 petaFLOPS。但Rubin GPU内存带宽为22 TB/s，而Groq 3 LPU达到150 TB/s，是其七倍。这种精简、注重速度的设计使LPU在推理方面表现出色。

新推理芯片凸显了AI采用率持续增长的趋势，即计算负载从构建更大模型转向大规模使用模型。D-matrix CEO Sid Sheth表示：“英伟达的宣布验证了SRAM架构在大规模推理中的重要性，而D-matrix在SRAM密度方面领先。我们认为数据中心客户将需要多种推理处理器，成功的系统将结合不同类型的芯片，并轻松融入现有数据中心。”

专用推理芯片并非唯一方案。上周晚些时候，亚马逊云服务（AWS）宣布将在其数据中心部署新型推理系统，该系统结合了AWS的Tranium AI加速器和Cerebras Systems的第三代计算机CS-3，后者基于有史以来最大的单芯片构建。该系统利用推理分离技术，将推理分为处理提示（预填充）和生成输出（解码）两部分。预填充本质上是并行的、计算密集型的，不需要太多内存带宽；而解码是更串行的过程，需要大量内存带宽。Cerebras通过在其芯片上集成44 GB SRAM并通过21 PB/s网络连接，最大化了内存带宽。

英伟达也计划在其新的计算机架Nvidia Groq 3 LPX中利用推理分离技术。每个托盘包含8个Groq 3 LPU，LPX将与Vera Rubin NVL72机架（英伟达现有的GPU和CPU机架）协同工作。预填充和解码中计算密集的部分在Vera Rubin上完成，而最终部分在Groq 3 LPU上完成，充分发挥每种芯片的优势。黄仁勋表示：“我们已经开始量产。”

（注：本文发表于2026年5月印刷版，标题为《AI推理时代即将来临》。）