2026-05-18 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

GQLA：面向硬件自適應的大語言模型解碼的分組查詢潛在注意力機制

研究人員提出了分組查詢潛在注意力（GQLA），這是對DeepSeek多頭潛在注意力（MLA）的改進，在不重新訓練的情況下提供兩種硬件自適應的解碼路徑。該方法能在H100和H20 GPU上實現高效推理，幷包含TransGQLA用於轉換預訓練的GQA模型。

來源arXiv Machine Learning作者: Fanxu Meng

在大型語言模型推理中，注意力機制是決定性能和效率的關鍵組件。DeepSeek-V2/V3採用的多頭潛在注意力（MLA）通過將鍵和值聯合壓縮到低秩潛在空間，幾乎完美匹配了H100 GPU的計算與存儲roofline。然而，MLA的訓練權重僅暴露一種解碼路徑——吸收式多查詢注意力（MQA）形式。這意味着高效推理嚴重依賴於H100級別的計算帶寬比，無法利用沿頭維度的張量並行，並且在像H20這樣受出口限制的商用GPU上無法獲得多token預測（MTP）帶來的加速優勢。

針對這一侷限，研究者提出了分組查詢潛在注意力（GQLA），作為MLA的最小修改方案。GQLA的訓練權重在同一參數集上暴露兩種代數等價的解碼路徑：一條是與MLA相同的MQA吸收路徑，另一條是帶有每組擴展緩存的分組查詢注意力（GQA）路徑。在運行時，系統會根據目標硬件的特性自動選擇最合適的路徑，無需重新訓練或自定義內核。因此，同一組GQLA權重能夠在H100上使用MQA吸收路徑（s_q=1）達到roofline性能，同時在H20上切換到GQA路徑（s_q=2）並利用MTP加速，並在GQA路徑上支持最多8路的零冗餘張量並行。

為了降低部署成本，研究者還將TransMLA擴展為TransGQLA，用於將預訓練的GQA檢查點轉換為GQLA模型。在LLaMA-3-8B上的實驗顯示，在MQA吸收路徑上，每個token的KV緩存大小壓縮至GQA基線的28.125%，同時在每組路徑上保留了GQA級別的流量結構。這一方法不僅提升了推理效率，還增強了模型在不同硬件環境下的部署靈活性。GQLA的提出為大型語言模型在多樣化硬件上的高效推理提供了一種簡潔實用的解決方案，尤其對受出口限制的GPU部署具有重要意義。