变压器真的需要三个投影吗?QKV变体的系统研究
一篇系统研究查询-键-值(QKV)注意力机制中投影共享的论文,发现共享键值投影(Q-K=V)可在仅降低3.1%困惑度的情况下减少50%的KV缓存,结合分组查询注意力(GQA)或多查询注意力(MQA)可分别减少87.5%和96.9%的缓存,实现设备端推理。该研究通过合成任务、视觉和语言建模实验验证,并公开了代码。
Transformer架构已成为各类AI任务的标准解决方案,其核心是查询(Query)、键(Key)、值(Value)的注意力机制。然而,这三个投影各自的贡献以及省略某些投影的影响尚不明确。一篇被ICML 2026接收的论文系统性地评估了三种投影共享约束:Q-K=V(共享键值)、Q=K-V(共享查询键)和Q=K=V(单一投影)。其中,后两种变体会产生对称注意力图,研究者通过引入二维位置编码实现了非对称注意力来解决这一问题。
实验覆盖了合成任务、视觉任务(MNIST、CIFAR、TinyImageNet、异常检测)以及语言建模(300M和1.2B参数模型在10B tokens上训练)。结果表明,提出的变体Transformer性能与标准QKV Transformer相当,甚至有时更优。在语言建模中,Q-K=V投影共享实现了50%的KV缓存减少,而困惑度仅下降3.1%。更重要的是,投影共享与头共享(如GQA/MQA)是互补的:将Q-K=V与GQA-4结合可获得87.5%的缓存缩减,与MQA结合则达到96.9%,这使得实际设备端推理成为可能。
研究者分析认为,Q-K=V之所以能保持质量,是因为键和值可以占据相似的表示空间,且注意力操作处于低秩状态;而Q=K-V则破坏了注意力的方向性。这项工作系统地表征了投影共享作为注意力中一种未充分探索的权重绑定形式,具有直接且可量化的推理内存优势,尤其适用于边缘部署。所有代码已在GitHub上公开。
该论文由Ali Kayyam等人完成,共26页、12张图、16张表。实验表明,投影共享与头共享的协同效果显著,且在不同规模模型上均表现一致。这一发现为在资源受限设备上部署大规模语言模型提供了新的可能性,有望推动Transformer模型在移动端和物联网场景的应用。