2026-05-31 07:18 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AI硬件市場分析：內存瓶頸與各層解決方案

本文深入探討了AI硬件市場中的內存瓶頸問題。GPU的張量運算速度遠超內存帶寬，導致解碼階段大部分計算單元閒置。文章分析了芯片層（Groq、Cerebras等）、推理引擎層（RadixArk、Inferact）、KV緩存基礎設施（TensorMesh/LMCache）以及封裝互連層（CoWoS）的不同解決方案，並指出持久公司需要把握無法被棧中其他部分內部化的控制點。

來源Hacker News AI作者: gmays

在現代GPU進行大語言模型推理時，其算術單元在解碼階段常常處於等待狀態。以H100為例，其張量吞吐量高達2~4 PFLOPS/s，但在自迴歸解碼中，瓶頸並非乘法運算，而是內存帶寬。H100的HBM帶寬約為3.35 TB/s，除非每個從內存取出的字節都能執行數百次有用操作，否則張量核心難以滿負荷運轉。這一問題的根源在於，GPU峯值張量吞吐量的增長速度遠超外部內存帶寬，導致解碼階段的運算強度差距不僅沒有縮小，反而逐漸擴大。

當前AI硬件市場的大部分有趣現象都源於這一基本事實。任何公司都需要明確自己正在解決內存問題的哪一部分，並避免與英偉達直接競爭。市場正在圍繞不同的解決方案組織起來：芯片內部、推理引擎、緩存層次結構，以及物理封裝與機架層面。

在芯片層面，Groq完全放棄了HBM，轉而採用片上SRAM，通過確定性執行模型避免了HBM等待。Cerebras則打造了覆蓋整個晶圓的單芯片，擁有44 GB片上SRAM和21 PB/s內部帶寬。MatX圍繞適合Transformer推理訪問模式的暫存存儲器進行設計，d-Matrix則採用存內計算。這些方案都試圖縮小數據存儲與計算單元之間的差距。

即使硬件不完美，軟件也能繞過瓶頸。一種粗略的roofline啓發式方法表明，解碼的近似批量大小與模型中活躍參數佔總參數的比例有關。對於稠密模型，該值約為300，而對於DeepSeek風格的MoE模型，活躍參數比例較低，批量大小可接近6000。低於此閾值時，系統受帶寬限制；高於此閾值時，則逐漸受計算限制。調度問題在於如何將請求有效打包到這些週期中，以最大化吞吐量同時滿足延遲目標。RadixArk和Inferact分別基於SGLang和vLLM框架，專注於這一領域。

KV緩存是另一個關鍵內存問題。在推理過程中，除了權重讀取，系統還需要讀取KV緩存，其大小隨上下文長度和批量大小線性增長。對於約1000億活躍參數的大型模型，KV緩存每token可達500 KB，在約20萬token時與權重佔用相當。超過這一閾值，KV緩存成本主導。TensorMesh的LMCache項目通過將KV緩存存儲在GPU、CPU RAM、NVMe和S3等不同介質中，實現了分層管理，避免了重複計算。

在封裝和互連層面，CoWoS先進封裝技術一直是供應瓶頸。從72 GPU系統擴展到500+ GPU規模的域，涉及連接器密度、電纜彎曲半徑、供電、液冷和HBM附接良率等機械工程和材料科學問題。破解這一瓶頸的公司可能獲得類似ASML的市場地位，但價值可能分散於多個供應商。

整體來看，AI硬件市場正成為一個內存問題的堆棧。芯片設法讓權重更接近計算單元，推理引擎優化批處理和調度，KV緩存系統實現層次化存儲，封裝和互連則讓機架更像一台機器。然而，最大的反作用力來自算法進步：推測解碼、KV緩存壓縮、稀疏性、蒸餾和原生低位模型都能減少每次有效token所需的內存移動。這些技術雖然改變了瓶頸的形狀，但並未消除根本約束。持久公司需要在每一層建立優勢，但關鍵在於擁有一個無法被棧中其他部分內部化的控制點。