更稀疏、更快、更輕的Transformer語言模型
Sakana AI與輝達合作,引入了新的稀疏資料結構與GPU核心,利用非結構化稀疏性提升大語言模型(LLM)的推理與訓練效率。該工作將在ICML 2026上展示。透過L1正則化,ReLU啟用的LLM可實現超過95%的稀疏性,且下游效能幾乎無損。基於自研的TwELL格式與融合多重矩陣乘法的CUDA核心,在H100 GPU上實現了批處理推理與訓練超過20%的加速,同時降低了能耗與記憶體需求。
文章情報
要點
- Sakana AI與輝達合作,提出TwELL(Tile-wise ELLPACK)稀疏打包格式,適配分塊矩陣乘法核心。
- 開發了融合多重矩陣乘法的定製CUDA核心,最大化吞吐量並壓縮儲存開銷。
- L1正則化誘導的高稀疏性(>95%)對LLM下游效能影響極小,並轉化為實際加速。
- 在H100 GPU上,批處理推理與訓練速度提升超過20%,能耗與記憶體需求顯著降低。
為什麼重要
這條新聞值得關注,因為Sakana AI與輝達合作,提出TwELL(Tile-wise ELLPACK)稀疏打包格式,適配分塊矩陣乘法核心。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
現代大語言模型(LLM)雖然能力強大,但其規模化部署的成本極高。其中,前饋層是計算和引數的主要來源。有趣的是,對於任意輸入token,前饋層的隱藏層啟用中僅有極小部分真正起作用,其餘近似為零。透過使用ReLU啟用函式和L1正則化,這種稀疏性甚至可以超過95%,而對下游效能的影響微乎其微。那麼,我們能否利用這種稀疏性來加速LLM呢?
困難在於硬體。現代輝達GPU針對密集矩陣乘法進行了最佳化,而傳統的非結構化稀疏演算法會引入巨大的開銷,抵消理論上的收益。這正是Sakana AI與輝達合作要解決的核心問題。他們提出了TwELL(Tile-wise ELLPACK)稀疏打包格式,專門設計用於與分塊矩陣乘法核心結合,不破壞執行流水線或增加記憶體開銷。此外,他們還開發了一套定製CUDA核心,融合了多重矩陣乘法以最大化吞吐量,並將TwELL壓縮為稀疏表示,從而大幅降低儲存成本。
為了驗證這些成果,研究者在數十億引數規模的稀疏LLM上進行了實驗。結果表明,輕度的L1正則化可以在訓練後誘匯出高水平的稀疏性,且對下游效能的影響可以忽略不計。利用這些新核心,在H100 GPU上,批處理推理和訓練的速度提升了超過20%,同時能耗和記憶體需求也顯著降低。該工作將在ICML 2026上發表。