更稀疏、更快、更轻的Transformer语言模型
Sakana AI与英伟达合作,引入了新的稀疏数据结构与GPU内核,利用非结构化稀疏性提升大语言模型(LLM)的推理与训练效率。该工作将在ICML 2026上展示。通过L1正则化,ReLU激活的LLM可实现超过95%的稀疏性,且下游性能几乎无损。基于自研的TwELL格式与融合多重矩阵乘法的CUDA内核,在H100 GPU上实现了批处理推理与训练超过20%的加速,同时降低了能耗与内存需求。
文章情报
要点
- Sakana AI与英伟达合作,提出TwELL(Tile-wise ELLPACK)稀疏打包格式,适配分块矩阵乘法内核。
- 开发了融合多重矩阵乘法的定制CUDA内核,最大化吞吐量并压缩存储开销。
- L1正则化诱导的高稀疏性(>95%)对LLM下游性能影响极小,并转化为实际加速。
- 在H100 GPU上,批处理推理与训练速度提升超过20%,能耗与内存需求显著降低。
为什么重要
这条新闻值得关注,因为Sakana AI与英伟达合作,提出TwELL(Tile-wise ELLPACK)稀疏打包格式,适配分块矩阵乘法内核。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
现代大语言模型(LLM)虽然能力强大,但其规模化部署的成本极高。其中,前馈层是计算和参数的主要来源。有趣的是,对于任意输入token,前馈层的隐藏层激活中仅有极小部分真正起作用,其余近似为零。通过使用ReLU激活函数和L1正则化,这种稀疏性甚至可以超过95%,而对下游性能的影响微乎其微。那么,我们能否利用这种稀疏性来加速LLM呢?
困难在于硬件。现代英伟达GPU针对密集矩阵乘法进行了优化,而传统的非结构化稀疏算法会引入巨大的开销,抵消理论上的收益。这正是Sakana AI与英伟达合作要解决的核心问题。他们提出了TwELL(Tile-wise ELLPACK)稀疏打包格式,专门设计用于与分块矩阵乘法内核结合,不破坏执行流水线或增加内存开销。此外,他们还开发了一套定制CUDA内核,融合了多重矩阵乘法以最大化吞吐量,并将TwELL压缩为稀疏表示,从而大幅降低存储成本。
为了验证这些成果,研究者在数十亿参数规模的稀疏LLM上进行了实验。结果表明,轻度的L1正则化可以在训练后诱导出高水平的稀疏性,且对下游性能的影响可以忽略不计。利用这些新内核,在H100 GPU上,批处理推理和训练的速度提升了超过20%,同时能耗和内存需求也显著降低。该工作将在ICML 2026上发表。