AI硬件市场分析:内存瓶颈与各层解决方案
本文深入探讨了AI硬件市场中的内存瓶颈问题。GPU的张量运算速度远超内存带宽,导致解码阶段大部分计算单元闲置。文章分析了芯片层(Groq、Cerebras等)、推理引擎层(RadixArk、Inferact)、KV缓存基础设施(TensorMesh/LMCache)以及封装互连层(CoWoS)的不同解决方案,并指出持久公司需要把握无法被栈中其他部分内部化的控制点。
在现代GPU进行大语言模型推理时,其算术单元在解码阶段常常处于等待状态。以H100为例,其张量吞吐量高达2~4 PFLOPS/s,但在自回归解码中,瓶颈并非乘法运算,而是内存带宽。H100的HBM带宽约为3.35 TB/s,除非每个从内存取出的字节都能执行数百次有用操作,否则张量核心难以满负荷运转。这一问题的根源在于,GPU峰值张量吞吐量的增长速度远超外部内存带宽,导致解码阶段的运算强度差距不仅没有缩小,反而逐渐扩大。
当前AI硬件市场的大部分有趣现象都源于这一基本事实。任何公司都需要明确自己正在解决内存问题的哪一部分,并避免与英伟达直接竞争。市场正在围绕不同的解决方案组织起来:芯片内部、推理引擎、缓存层次结构,以及物理封装与机架层面。
在芯片层面,Groq完全放弃了HBM,转而采用片上SRAM,通过确定性执行模型避免了HBM等待。Cerebras则打造了覆盖整个晶圆的单芯片,拥有44 GB片上SRAM和21 PB/s内部带宽。MatX围绕适合Transformer推理访问模式的暂存存储器进行设计,d-Matrix则采用存内计算。这些方案都试图缩小数据存储与计算单元之间的差距。
即使硬件不完美,软件也能绕过瓶颈。一种粗略的roofline启发式方法表明,解码的近似批量大小与模型中活跃参数占总参数的比例有关。对于稠密模型,该值约为300,而对于DeepSeek风格的MoE模型,活跃参数比例较低,批量大小可接近6000。低于此阈值时,系统受带宽限制;高于此阈值时,则逐渐受计算限制。调度问题在于如何将请求有效打包到这些周期中,以最大化吞吐量同时满足延迟目标。RadixArk和Inferact分别基于SGLang和vLLM框架,专注于这一领域。
KV缓存是另一个关键内存问题。在推理过程中,除了权重读取,系统还需要读取KV缓存,其大小随上下文长度和批量大小线性增长。对于约1000亿活跃参数的大型模型,KV缓存每token可达500 KB,在约20万token时与权重占用相当。超过这一阈值,KV缓存成本主导。TensorMesh的LMCache项目通过将KV缓存存储在GPU、CPU RAM、NVMe和S3等不同介质中,实现了分层管理,避免了重复计算。
在封装和互连层面,CoWoS先进封装技术一直是供应瓶颈。从72 GPU系统扩展到500+ GPU规模的域,涉及连接器密度、电缆弯曲半径、供电、液冷和HBM附接良率等机械工程和材料科学问题。破解这一瓶颈的公司可能获得类似ASML的市场地位,但价值可能分散于多个供应商。
整体来看,AI硬件市场正成为一个内存问题的堆栈。芯片设法让权重更接近计算单元,推理引擎优化批处理和调度,KV缓存系统实现层次化存储,封装和互连则让机架更像一台机器。然而,最大的反作用力来自算法进步:推测解码、KV缓存压缩、稀疏性、蒸馏和原生低位模型都能减少每次有效token所需的内存移动。这些技术虽然改变了瓶颈的形状,但并未消除根本约束。持久公司需要在每一层建立优势,但关键在于拥有一个无法被栈中其他部分内部化的控制点。