AI硬件市場分析:內存瓶頸與各層解決方案
本文深入探討了AI硬件市場中的內存瓶頸問題。GPU的張量運算速度遠超內存帶寬,導致解碼階段大部分計算單元閒置。文章分析了芯片層(Groq、Cerebras等)、推理引擎層(RadixArk、Inferact)、KV緩存基礎設施(TensorMesh/LMCache)以及封裝互連層(CoWoS)的不同解決方案,並指出持久公司需要把握無法被棧中其他部分內部化的控制點。
在現代GPU進行大語言模型推理時,其算術單元在解碼階段常常處於等待狀態。以H100為例,其張量吞吐量高達2~4 PFLOPS/s,但在自迴歸解碼中,瓶頸並非乘法運算,而是內存帶寬。H100的HBM帶寬約為3.35 TB/s,除非每個從內存取出的字節都能執行數百次有用操作,否則張量核心難以滿負荷運轉。這一問題的根源在於,GPU峯值張量吞吐量的增長速度遠超外部內存帶寬,導致解碼階段的運算強度差距不僅沒有縮小,反而逐漸擴大。
當前AI硬件市場的大部分有趣現象都源於這一基本事實。任何公司都需要明確自己正在解決內存問題的哪一部分,並避免與英偉達直接競爭。市場正在圍繞不同的解決方案組織起來:芯片內部、推理引擎、緩存層次結構,以及物理封裝與機架層面。
在芯片層面,Groq完全放棄了HBM,轉而採用片上SRAM,通過確定性執行模型避免了HBM等待。Cerebras則打造了覆蓋整個晶圓的單芯片,擁有44 GB片上SRAM和21 PB/s內部帶寬。MatX圍繞適合Transformer推理訪問模式的暫存存儲器進行設計,d-Matrix則採用存內計算。這些方案都試圖縮小數據存儲與計算單元之間的差距。
即使硬件不完美,軟件也能繞過瓶頸。一種粗略的roofline啓發式方法表明,解碼的近似批量大小與模型中活躍參數佔總參數的比例有關。對於稠密模型,該值約為300,而對於DeepSeek風格的MoE模型,活躍參數比例較低,批量大小可接近6000。低於此閾值時,系統受帶寬限制;高於此閾值時,則逐漸受計算限制。調度問題在於如何將請求有效打包到這些週期中,以最大化吞吐量同時滿足延遲目標。RadixArk和Inferact分別基於SGLang和vLLM框架,專注於這一領域。
KV緩存是另一個關鍵內存問題。在推理過程中,除了權重讀取,系統還需要讀取KV緩存,其大小隨上下文長度和批量大小線性增長。對於約1000億活躍參數的大型模型,KV緩存每token可達500 KB,在約20萬token時與權重佔用相當。超過這一閾值,KV緩存成本主導。TensorMesh的LMCache項目通過將KV緩存存儲在GPU、CPU RAM、NVMe和S3等不同介質中,實現了分層管理,避免了重複計算。
在封裝和互連層面,CoWoS先進封裝技術一直是供應瓶頸。從72 GPU系統擴展到500+ GPU規模的域,涉及連接器密度、電纜彎曲半徑、供電、液冷和HBM附接良率等機械工程和材料科學問題。破解這一瓶頸的公司可能獲得類似ASML的市場地位,但價值可能分散於多個供應商。
整體來看,AI硬件市場正成為一個內存問題的堆棧。芯片設法讓權重更接近計算單元,推理引擎優化批處理和調度,KV緩存系統實現層次化存儲,封裝和互連則讓機架更像一台機器。然而,最大的反作用力來自算法進步:推測解碼、KV緩存壓縮、稀疏性、蒸餾和原生低位模型都能減少每次有效token所需的內存移動。這些技術雖然改變了瓶頸的形狀,但並未消除根本約束。持久公司需要在每一層建立優勢,但關鍵在於擁有一個無法被棧中其他部分內部化的控制點。