2026-06-02 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

ART：用于高效大语言模型解码的注意力运行时终止技术

大语言模型在长上下文解码时面临内存带宽瓶颈，因为需要频繁访问庞大的键值（KV）缓存。现有方法多在解码前进行基于键的剪枝，但忽视了注意力输出同时依赖键和值。本文提出注意力运行时终止（ART），一种轻量级机制，在内核执行过程中动态跟踪累积的注意力输出，当后续贡献可忽略时提前终止KV块访问。ART与现有基于键的方法正交，可无缝集成。在LongBench基准测试中，大批量下生成吞吐量提升20%，且精度相当。

来源arXiv Computational Linguistics作者: Chen Qiu, Guozhong Li, Panos Kalnis

在大型语言模型（LLM）的实际应用中，长上下文解码一直是一个关键挑战。随着上下文长度的增加，模型需要频繁访问庞大的键值（KV）缓存，这严重受限于内存带宽，导致生成速度大幅下降。现有的KV缓存管理方法大多采用解码前基于键的剪枝策略，但这些方法忽略了注意力输出实际上同时依赖于键和值的事实。如果在剪枝时纳入值，会引入难以承受的额外计算开销。

针对这一困境，来自研究机构的陈秋、李国忠和Panos Kalnis提出了注意力运行时终止（Attention Run-time Termination，ART）机制。ART是一种轻量级的运行时方法，它在内核执行过程中持续监控累积的注意力输出。当检测到后续KV块的贡献变得微乎其微时，ART会提前终止对这些块的访问，从而节省宝贵的内存带宽。这种设计使得ART与现有的基于键的剪枝方法完全正交，因此可以无缝集成到任何现有的推理系统中，而无需对模型架构进行任何修改。

研究团队在LongBench基准测试上对ART进行了全面评估。实验结果表明，在大批量处理场景下，ART相比当前最先进的基线方法实现了20%的生成吞吐量提升，同时保持了几乎一致的准确率。这一显著改进验证了ART在保持模型质量的同时，能够大幅加速解码过程。

ART的提出为大语言模型的高效长上下文推理开辟了新的方向。其轻量级特性和易于集成的优势，使其有望成为未来LLM推理系统中不可或缺的一部分。该论文已提交至arXiv（编号：2606.00024），并公开了完整的代码和数据，供研究者复现和进一步探索。