2026-05-08站内改写

更稀疏、更快、更轻的Transformer语言模型

Sakana AI与英伟达合作，引入了新的稀疏数据结构与GPU内核，利用非结构化稀疏性提升大语言模型（LLM）的推理与训练效率。该工作将在ICML 2026上展示。通过L1正则化，ReLU激活的LLM可实现超过95%的稀疏性，且下游性能几乎无损。基于自研的TwELL格式与融合多重矩阵乘法的CUDA内核，在H100 GPU上实现了批处理推理与训练超过20%的加速，同时降低了能耗与内存需求。

文章情报

工程师进阶

要点

Sakana AI与英伟达合作，提出TwELL（Tile-wise ELLPACK）稀疏打包格式，适配分块矩阵乘法内核。
开发了融合多重矩阵乘法的定制CUDA内核，最大化吞吐量并压缩存储开销。
L1正则化诱导的高稀疏性（>95%）对LLM下游性能影响极小，并转化为实际加速。
在H100 GPU上，批处理推理与训练速度提升超过20%，能耗与内存需求显著降低。

为什么重要

这条新闻值得关注，因为Sakana AI与英伟达合作，提出TwELL（Tile-wise ELLPACK）稀疏打包格式，适配分块矩阵乘法内核。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

现代大语言模型（LLM）虽然能力强大，但其规模化部署的成本极高。其中，前馈层是计算和参数的主要来源。有趣的是，对于任意输入token，前馈层的隐藏层激活中仅有极小部分真正起作用，其余近似为零。通过使用ReLU激活函数和L1正则化，这种稀疏性甚至可以超过95%，而对下游性能的影响微乎其微。那么，我们能否利用这种稀疏性来加速LLM呢？

困难在于硬件。现代英伟达GPU针对密集矩阵乘法进行了优化，而传统的非结构化稀疏算法会引入巨大的开销，抵消理论上的收益。这正是Sakana AI与英伟达合作要解决的核心问题。他们提出了TwELL（Tile-wise ELLPACK）稀疏打包格式，专门设计用于与分块矩阵乘法内核结合，不破坏执行流水线或增加内存开销。此外，他们还开发了一套定制CUDA内核，融合了多重矩阵乘法以最大化吞吐量，并将TwELL压缩为稀疏表示，从而大幅降低存储成本。

为了验证这些成果，研究者在数十亿参数规模的稀疏LLM上进行了实验。结果表明，轻度的L1正则化可以在训练后诱导出高水平的稀疏性，且对下游性能的影响可以忽略不计。利用这些新内核，在H100 GPU上，批处理推理和训练的速度提升了超过20%，同时能耗和内存需求也显著降低。该工作将在ICML 2026上发表。