AI News HubLIVE
站内改写

AI硬體市場分析:記憶體瓶頸與各層解決方案

本文深入探討了AI硬體市場中的記憶體瓶頸問題。GPU的張量運算速度遠超記憶體頻寬,導致解碼階段大部分計算單元閒置。文章分析了晶片層(Groq、Cerebras等)、推理引擎層(RadixArk、Inferact)、KV快取基礎設施(TensorMesh/LMCache)以及封裝互連層(CoWoS)的不同解決方案,並指出持久公司需要把握無法被棧中其他部分內部化的控制點。

在現代GPU進行大語言模型推理時,其算術單元在解碼階段常常處於等待狀態。以H100為例,其張量吞吐量高達2~4 PFLOPS/s,但在自迴歸解碼中,瓶頸並非乘法運算,而是記憶體頻寬。H100的HBM頻寬約為3.35 TB/s,除非每個從記憶體取出的位元組都能執行數百次有用操作,否則張量核心難以滿負荷運轉。這一問題的根源在於,GPU峰值張量吞吐量的增長速度遠超外部記憶體頻寬,導致解碼階段的運算強度差距不僅沒有縮小,反而逐漸擴大。

當前AI硬體市場的大部分有趣現象都源於這一基本事實。任何公司都需要明確自己正在解決記憶體問題的哪一部分,並避免與輝達直接競爭。市場正在圍繞不同的解決方案組織起來:晶片內部、推理引擎、快取層次結構,以及物理封裝與機架層面。

在晶片層面,Groq完全放棄了HBM,轉而採用片上SRAM,透過確定性執行模型避免了HBM等待。Cerebras則打造了覆蓋整個晶圓的單晶片,擁有44 GB片上SRAM和21 PB/s內部頻寬。MatX圍繞適合Transformer推理訪問模式的暫存儲存器進行設計,d-Matrix則採用存內計算。這些方案都試圖縮小資料儲存與計算單元之間的差距。

即使硬體不完美,軟體也能繞過瓶頸。一種粗略的roofline啟發式方法表明,解碼的近似批次大小與模型中活躍引數佔總引數的比例有關。對於稠密模型,該值約為300,而對於DeepSeek風格的MoE模型,活躍引數比例較低,批次大小可接近6000。低於此閾值時,系統受頻寬限制;高於此閾值時,則逐漸受計算限制。排程問題在於如何將請求有效打包到這些週期中,以最大化吞吐量同時滿足延遲目標。RadixArk和Inferact分別基於SGLang和vLLM框架,專注於這一領域。

KV快取是另一個關鍵記憶體問題。在推理過程中,除了權重讀取,系統還需要讀取KV快取,其大小隨上下文長度和批次大小線性增長。對於約1000億活躍引數的大型模型,KV快取每token可達500 KB,在約20萬token時與權重佔用相當。超過這一閾值,KV快取成本主導。TensorMesh的LMCache專案透過將KV快取儲存在GPU、CPU RAM、NVMe和S3等不同介質中,實現了分層管理,避免了重複計算。

在封裝和互連層面,CoWoS先進封裝技術一直是供應瓶頸。從72 GPU系統擴充套件到500+ GPU規模的域,涉及聯結器密度、電纜彎曲半徑、供電、液冷和HBM附接良率等機械工程和材料科學問題。破解這一瓶頸的公司可能獲得類似ASML的市場地位,但價值可能分散於多個供應商。

整體來看,AI硬體市場正成為一個記憶體問題的堆疊。晶片設法讓權重更接近計算單元,推理引擎最佳化批處理和排程,KV快取系統實現層次化儲存,封裝和互連則讓機架更像一臺機器。然而,最大的反作用力來自演算法進步:推測解碼、KV快取壓縮、稀疏性、蒸餾和原生低位模型都能減少每次有效token所需的記憶體移動。這些技術雖然改變了瓶頸的形狀,但並未消除根本約束。持久公司需要在每一層建立優勢,但關鍵在於擁有一個無法被棧中其他部分內部化的控制點。