2026-05-08站内改写

更稀疏、更快、更輕的Transformer語言模型

Sakana AI與輝達合作，引入了新的稀疏資料結構與GPU核心，利用非結構化稀疏性提升大語言模型（LLM）的推理與訓練效率。該工作將在ICML 2026上展示。透過L1正則化，ReLU啟用的LLM可實現超過95%的稀疏性，且下游效能幾乎無損。基於自研的TwELL格式與融合多重矩陣乘法的CUDA核心，在H100 GPU上實現了批處理推理與訓練超過20%的加速，同時降低了能耗與記憶體需求。

文章情報

工程師進階

要點

Sakana AI與輝達合作，提出TwELL（Tile-wise ELLPACK）稀疏打包格式，適配分塊矩陣乘法核心。
開發了融合多重矩陣乘法的定製CUDA核心，最大化吞吐量並壓縮儲存開銷。
L1正則化誘導的高稀疏性（>95%）對LLM下游效能影響極小，並轉化為實際加速。
在H100 GPU上，批處理推理與訓練速度提升超過20%，能耗與記憶體需求顯著降低。

為什麼重要

這條新聞值得關注，因為Sakana AI與輝達合作，提出TwELL（Tile-wise ELLPACK）稀疏打包格式，適配分塊矩陣乘法核心。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

現代大語言模型（LLM）雖然能力強大，但其規模化部署的成本極高。其中，前饋層是計算和引數的主要來源。有趣的是，對於任意輸入token，前饋層的隱藏層啟用中僅有極小部分真正起作用，其餘近似為零。透過使用ReLU啟用函式和L1正則化，這種稀疏性甚至可以超過95%，而對下游效能的影響微乎其微。那麼，我們能否利用這種稀疏性來加速LLM呢？

困難在於硬體。現代輝達GPU針對密集矩陣乘法進行了最佳化，而傳統的非結構化稀疏演算法會引入巨大的開銷，抵消理論上的收益。這正是Sakana AI與輝達合作要解決的核心問題。他們提出了TwELL（Tile-wise ELLPACK）稀疏打包格式，專門設計用於與分塊矩陣乘法核心結合，不破壞執行流水線或增加記憶體開銷。此外，他們還開發了一套定製CUDA核心，融合了多重矩陣乘法以最大化吞吐量，並將TwELL壓縮為稀疏表示，從而大幅降低儲存成本。

為了驗證這些成果，研究者在數十億引數規模的稀疏LLM上進行了實驗。結果表明，輕度的L1正則化可以在訓練後誘匯出高水平的稀疏性，且對下游效能的影響可以忽略不計。利用這些新核心，在H100 GPU上，批處理推理和訓練的速度提升了超過20%，同時能耗和記憶體需求也顯著降低。該工作將在ICML 2026上發表。