2026-05-31 07:18 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AI硬體市場分析：記憶體瓶頸與各層解決方案

本文深入探討了AI硬體市場中的記憶體瓶頸問題。GPU的張量運算速度遠超記憶體頻寬，導致解碼階段大部分計算單元閒置。文章分析了晶片層（Groq、Cerebras等）、推理引擎層（RadixArk、Inferact）、KV快取基礎設施（TensorMesh/LMCache）以及封裝互連層（CoWoS）的不同解決方案，並指出持久公司需要把握無法被棧中其他部分內部化的控制點。

來源Hacker News AI作者: gmays

在現代GPU進行大語言模型推理時，其算術單元在解碼階段常常處於等待狀態。以H100為例，其張量吞吐量高達2~4 PFLOPS/s，但在自迴歸解碼中，瓶頸並非乘法運算，而是記憶體頻寬。H100的HBM頻寬約為3.35 TB/s，除非每個從記憶體取出的位元組都能執行數百次有用操作，否則張量核心難以滿負荷運轉。這一問題的根源在於，GPU峰值張量吞吐量的增長速度遠超外部記憶體頻寬，導致解碼階段的運算強度差距不僅沒有縮小，反而逐漸擴大。

當前AI硬體市場的大部分有趣現象都源於這一基本事實。任何公司都需要明確自己正在解決記憶體問題的哪一部分，並避免與輝達直接競爭。市場正在圍繞不同的解決方案組織起來：晶片內部、推理引擎、快取層次結構，以及物理封裝與機架層面。

在晶片層面，Groq完全放棄了HBM，轉而採用片上SRAM，透過確定性執行模型避免了HBM等待。Cerebras則打造了覆蓋整個晶圓的單晶片，擁有44 GB片上SRAM和21 PB/s內部頻寬。MatX圍繞適合Transformer推理訪問模式的暫存儲存器進行設計，d-Matrix則採用存內計算。這些方案都試圖縮小資料儲存與計算單元之間的差距。

即使硬體不完美，軟體也能繞過瓶頸。一種粗略的roofline啟發式方法表明，解碼的近似批次大小與模型中活躍引數佔總引數的比例有關。對於稠密模型，該值約為300，而對於DeepSeek風格的MoE模型，活躍引數比例較低，批次大小可接近6000。低於此閾值時，系統受頻寬限制；高於此閾值時，則逐漸受計算限制。排程問題在於如何將請求有效打包到這些週期中，以最大化吞吐量同時滿足延遲目標。RadixArk和Inferact分別基於SGLang和vLLM框架，專注於這一領域。

KV快取是另一個關鍵記憶體問題。在推理過程中，除了權重讀取，系統還需要讀取KV快取，其大小隨上下文長度和批次大小線性增長。對於約1000億活躍引數的大型模型，KV快取每token可達500 KB，在約20萬token時與權重佔用相當。超過這一閾值，KV快取成本主導。TensorMesh的LMCache專案透過將KV快取儲存在GPU、CPU RAM、NVMe和S3等不同介質中，實現了分層管理，避免了重複計算。

在封裝和互連層面，CoWoS先進封裝技術一直是供應瓶頸。從72 GPU系統擴充套件到500+ GPU規模的域，涉及聯結器密度、電纜彎曲半徑、供電、液冷和HBM附接良率等機械工程和材料科學問題。破解這一瓶頸的公司可能獲得類似ASML的市場地位，但價值可能分散於多個供應商。

整體來看，AI硬體市場正成為一個記憶體問題的堆疊。晶片設法讓權重更接近計算單元，推理引擎最佳化批處理和排程，KV快取系統實現層次化儲存，封裝和互連則讓機架更像一臺機器。然而，最大的反作用力來自演算法進步：推測解碼、KV快取壓縮、稀疏性、蒸餾和原生低位模型都能減少每次有效token所需的記憶體移動。這些技術雖然改變了瓶頸的形狀，但並未消除根本約束。持久公司需要在每一層建立優勢，但關鍵在於擁有一個無法被棧中其他部分內部化的控制點。