2026-05-31 07:18 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

AI硬件市场分析：内存瓶颈与各层解决方案

本文深入探讨了AI硬件市场中的内存瓶颈问题。GPU的张量运算速度远超内存带宽，导致解码阶段大部分计算单元闲置。文章分析了芯片层（Groq、Cerebras等）、推理引擎层（RadixArk、Inferact）、KV缓存基础设施（TensorMesh/LMCache）以及封装互连层（CoWoS）的不同解决方案，并指出持久公司需要把握无法被栈中其他部分内部化的控制点。

来源Hacker News AI作者: gmays

在现代GPU进行大语言模型推理时，其算术单元在解码阶段常常处于等待状态。以H100为例，其张量吞吐量高达2~4 PFLOPS/s，但在自回归解码中，瓶颈并非乘法运算，而是内存带宽。H100的HBM带宽约为3.35 TB/s，除非每个从内存取出的字节都能执行数百次有用操作，否则张量核心难以满负荷运转。这一问题的根源在于，GPU峰值张量吞吐量的增长速度远超外部内存带宽，导致解码阶段的运算强度差距不仅没有缩小，反而逐渐扩大。

当前AI硬件市场的大部分有趣现象都源于这一基本事实。任何公司都需要明确自己正在解决内存问题的哪一部分，并避免与英伟达直接竞争。市场正在围绕不同的解决方案组织起来：芯片内部、推理引擎、缓存层次结构，以及物理封装与机架层面。

在芯片层面，Groq完全放弃了HBM，转而采用片上SRAM，通过确定性执行模型避免了HBM等待。Cerebras则打造了覆盖整个晶圆的单芯片，拥有44 GB片上SRAM和21 PB/s内部带宽。MatX围绕适合Transformer推理访问模式的暂存存储器进行设计，d-Matrix则采用存内计算。这些方案都试图缩小数据存储与计算单元之间的差距。

即使硬件不完美，软件也能绕过瓶颈。一种粗略的roofline启发式方法表明，解码的近似批量大小与模型中活跃参数占总参数的比例有关。对于稠密模型，该值约为300，而对于DeepSeek风格的MoE模型，活跃参数比例较低，批量大小可接近6000。低于此阈值时，系统受带宽限制；高于此阈值时，则逐渐受计算限制。调度问题在于如何将请求有效打包到这些周期中，以最大化吞吐量同时满足延迟目标。RadixArk和Inferact分别基于SGLang和vLLM框架，专注于这一领域。

KV缓存是另一个关键内存问题。在推理过程中，除了权重读取，系统还需要读取KV缓存，其大小随上下文长度和批量大小线性增长。对于约1000亿活跃参数的大型模型，KV缓存每token可达500 KB，在约20万token时与权重占用相当。超过这一阈值，KV缓存成本主导。TensorMesh的LMCache项目通过将KV缓存存储在GPU、CPU RAM、NVMe和S3等不同介质中，实现了分层管理，避免了重复计算。

在封装和互连层面，CoWoS先进封装技术一直是供应瓶颈。从72 GPU系统扩展到500+ GPU规模的域，涉及连接器密度、电缆弯曲半径、供电、液冷和HBM附接良率等机械工程和材料科学问题。破解这一瓶颈的公司可能获得类似ASML的市场地位，但价值可能分散于多个供应商。

整体来看，AI硬件市场正成为一个内存问题的堆栈。芯片设法让权重更接近计算单元，推理引擎优化批处理和调度，KV缓存系统实现层次化存储，封装和互连则让机架更像一台机器。然而，最大的反作用力来自算法进步：推测解码、KV缓存压缩、稀疏性、蒸馏和原生低位模型都能减少每次有效token所需的内存移动。这些技术虽然改变了瓶颈的形状，但并未消除根本约束。持久公司需要在每一层建立优势，但关键在于拥有一个无法被栈中其他部分内部化的控制点。