英伟达Groq 3:AI推理时代(可能)来临
英伟达发布Groq 3语言处理单元(LPU),专为AI推理设计,采用SRAM内存架构实现极低延迟。该芯片基于从Groq公司授权的技术,与Vera Rubin GPU配合使用,通过推理分离技术优化性能,标志着AI推理市场进入新阶段。
本周,超过3万人聚集在加州圣何塞参加英伟达GTC大会——这场被称为“AI界超级碗”的盛会。在主题演讲中,英伟达CEO黄仁勋宣布推出新一代Vera Rubin芯片,并特别介绍了Groq 3语言处理单元(LPU)。这是英伟达首款专为AI推理设计的芯片,集成了去年圣诞节前夕以200亿美元从Groq公司获得授权的技术。
黄仁勋在演讲中表示:“AI终于能够进行生产性工作,因此推理的转折点已经到来。AI现在需要思考,而思考就需要推理;AI现在需要行动,而行动就需要推理。”
训练和推理任务对计算资源的要求截然不同。训练可以同时处理海量数据并耗时数周,而推理必须在用户查询到达时实时运行。与训练不同,推理不需要昂贵的反向传播。对于推理而言,最重要的是低延迟——用户期望聊天机器人快速响应,而对于思考或推理模型,在用户看到输出之前,推理可能已运行多次。
过去几年,专用推理芯片初创公司经历了“寒武纪大爆发”,各种公司探索不同的加速方法,包括D-matrix的数字内存计算、Etched的变压器推理ASIC、Rain AI的神经形态芯片、EnCharge的模拟内存计算、Tensordyne的对数数学优化、FuriosaAI的张量操作硬件等。去年年底,英伟达与Groq达成协议,似乎已从众多推理芯片中挑选了一个赢家。仅在两个半月后,英伟达就发布了Groq 3 LPU,凸显了推理市场增长的紧迫性。
Groq加速推理的方法是将处理单元与内存单元交错集成在芯片上。它不依赖GPU旁的高带宽内存(HBM),而是使用集成在处理器内部的SRAM内存。这种设计极大地简化了数据流,使其能够以流线型的线性方式运行。Groq前首席技术布道师、现任英伟达开发者营销总监Mark Heaps在2024年的超级计算会议上解释说:“数据实际上直接流经SRAM。而在多核GPU上,许多指令需要发送到片外内存再返回。我们没有这个问题,所有数据以线性顺序通过。”
使用SRAM使线性数据流异常快速,从而实现推理所需的低延迟。英伟达副总裁兼超大规模与高性能计算总经理Ian Buck表示:“LPU专门优化用于极低延迟的令牌生成。”
对比Rubin GPU和Groq 3 LPU可以凸显差异。Rubin GPU拥有288 GB的HBM,4位计算能力为50 petaFLOPS;而Groq 3 LPU仅包含500 MB SRAM,8位计算能力为1.2 petaFLOPS。但Rubin GPU内存带宽为22 TB/s,而Groq 3 LPU达到150 TB/s,是其七倍。这种精简、注重速度的设计使LPU在推理方面表现出色。
新推理芯片凸显了AI采用率持续增长的趋势,即计算负载从构建更大模型转向大规模使用模型。D-matrix CEO Sid Sheth表示:“英伟达的宣布验证了SRAM架构在大规模推理中的重要性,而D-matrix在SRAM密度方面领先。我们认为数据中心客户将需要多种推理处理器,成功的系统将结合不同类型的芯片,并轻松融入现有数据中心。”
专用推理芯片并非唯一方案。上周晚些时候,亚马逊云服务(AWS)宣布将在其数据中心部署新型推理系统,该系统结合了AWS的Tranium AI加速器和Cerebras Systems的第三代计算机CS-3,后者基于有史以来最大的单芯片构建。该系统利用推理分离技术,将推理分为处理提示(预填充)和生成输出(解码)两部分。预填充本质上是并行的、计算密集型的,不需要太多内存带宽;而解码是更串行的过程,需要大量内存带宽。Cerebras通过在其芯片上集成44 GB SRAM并通过21 PB/s网络连接,最大化了内存带宽。
英伟达也计划在其新的计算机架Nvidia Groq 3 LPX中利用推理分离技术。每个托盘包含8个Groq 3 LPU,LPX将与Vera Rubin NVL72机架(英伟达现有的GPU和CPU机架)协同工作。预填充和解码中计算密集的部分在Vera Rubin上完成,而最终部分在Groq 3 LPU上完成,充分发挥每种芯片的优势。黄仁勋表示:“我们已经开始量产。”
(注:本文发表于2026年5月印刷版,标题为《AI推理时代即将来临》。)