變壓器真的需要三個投影嗎?QKV變體的系統研究
一篇系統研究查詢-鍵-值(QKV)注意力機制中投影共享的論文,發現共享鍵值投影(Q-K=V)可在僅降低3.1%困惑度的情況下減少50%的KV緩存,結合分組查詢注意力(GQA)或多查詢注意力(MQA)可分別減少87.5%和96.9%的緩存,實現設備端推理。該研究通過合成任務、視覺和語言建模實驗驗證,並公開了代碼。
Transformer架構已成為各類AI任務的標準解決方案,其核心是查詢(Query)、鍵(Key)、值(Value)的注意力機制。然而,這三個投影各自的貢獻以及省略某些投影的影響尚不明確。一篇被ICML 2026接收的論文系統性地評估了三種投影共享約束:Q-K=V(共享鍵值)、Q=K-V(共享查詢鍵)和Q=K=V(單一投影)。其中,後兩種變體會產生對稱注意力圖,研究者通過引入二維位置編碼實現了非對稱注意力來解決這一問題。
實驗覆蓋了合成任務、視覺任務(MNIST、CIFAR、TinyImageNet、異常檢測)以及語言建模(300M和1.2B參數模型在10B tokens上訓練)。結果表明,提出的變體Transformer性能與標準QKV Transformer相當,甚至有時更優。在語言建模中,Q-K=V投影共享實現了50%的KV緩存減少,而困惑度僅下降3.1%。更重要的是,投影共享與頭共享(如GQA/MQA)是互補的:將Q-K=V與GQA-4結合可獲得87.5%的緩存縮減,與MQA結合則達到96.9%,這使得實際設備端推理成為可能。
研究者分析認為,Q-K=V之所以能保持質量,是因為鍵和值可以佔據相似的表示空間,且注意力操作處於低秩狀態;而Q=K-V則破壞了注意力的方向性。這項工作系統地表徵了投影共享作為注意力中一種未充分探索的權重綁定形式,具有直接且可量化的推理內存優勢,尤其適用於邊緣部署。所有代碼已在GitHub上公開。
該論文由Ali Kayyam等人完成,共26頁、12張圖、16張表。實驗表明,投影共享與頭共享的協同效果顯著,且在不同規模模型上均表現一致。這一發現為在資源受限設備上部署大規模語言模型提供了新的可能性,有望推動Transformer模型在移動端和物聯網場景的應用。