AI News HubLIVE
站内改写2 分钟阅读

推理给AI芯片初创公司提供了再次证明自己的机会

AI采用达到转折点,焦点从训练转向推理,初创芯片公司有机会在多样化的推理工作负载中抢占Nvidia的市场份额。Nvidia收购Groq、AWS与Cerebras合作、Intel与SambaNova合作等例子表明,分解式推理正成为趋势。Lumai的光学推理加速器和Tenstorrent的RISC-V平台也展示了不同路线。

随着人工智能的采用进入一个转折点,焦点从训练新模型转向服务它们,AI芯片初创公司迎来了证明自己的关键时刻。与训练相比,推理工作负载更加多样化,这为初创公司提供了在Nvidia主导的市场中开辟自己利基的机会。大型批处理推理需要与AI助手或代码代理不同的计算、内存和带宽组合。因此,推理变得越来越异构,某些方面可能更适合GPU或其他专用硬件。

Nvidia以200亿美元收购Groq就是一个典型例子。Groq的SRAM密集型芯片架构使其能够比任何GPU更快地输出令牌,但有限的计算能力和老化的芯片技术使其无法高效扩展。Nvidia通过将计算密集型的前缀填充(prefill)阶段移至GPU,而将带宽受限的解码操作保留在其新的LPU上,巧妙地解决了这一问题。

这种组合并非Nvidia独有。在GTC之后的一周,AWS宣布了自己的分解式计算平台,使用其定制的Trainium加速器进行前缀填充,并使用Cerebras Systems的餐盘大小的晶圆级加速器进行解码。英特尔也加入了这一行列,宣布了一个参考设计,将使用GPU进行前缀填充,并使用AI芯片初创公司SambaNova的新型RDU进行解码。

到目前为止,大多数AI芯片初创公司的成功都体现在解码方面。SRAM虽然容量不大,但速度极快。因此,只要有足够的芯片,或者像Cerebras那样有大芯片,它们非常适合加速解码操作,但芯片初创公司并不局限于这一领域。本周,Lumai详细介绍了其光学推理加速器,该加速器使用光而非电子来执行机器学习工作负载核心的矩阵乘法运算,功耗仅为纯数字架构的一小部分。Lumai预计其下一代Iris Tetra系统将在2029年以10kW的功耗预算实现exaOPS的AI性能。从技术上讲,这些芯片采用混合电光架构,但推理期间的大部分计算由芯片的光学张量核心处理。最初,该公司将其芯片定位为计算密集型推理工作负载(如批处理)的独立GPU替代品。长期来看,该公司还计划将其光学加速器用作前缀填充处理器。该架构仍处于初期阶段,目前能够运行Llama 3.1 8B或70B等十亿参数模型,但已经足够成熟,这家英国初创公司已将其芯片开放给云计算和超大规模数据中心进行评估。

尽管如此,并非每家AI芯片初创公司都对使用不同芯片进行前缀填充和解码持积极态度。本周早些时候,Tenstorrent发布了其基于RISC-V的Galaxy Blackhole计算平台,该公司CEO Jim Keller毫不掩饰他对分解式推理公式的反对。“行业内的每家公司都在结对构建加速器的加速器的加速器。CPU运行代码,GPU加速CPU,TPU加速GPU,LPU加速TPU,以此类推。这导致了复杂的解决方案,很可能无法适应AI模型和用途的变化。在Tenstorrent,我们认为更通用、更简单的方法会奏效,”他在一份声明中表示。