2026-05-18 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

GQLA：面向硬件自适应的大语言模型解码的分组查询潜在注意力机制

研究人员提出了分组查询潜在注意力（GQLA），这是对DeepSeek多头潜在注意力（MLA）的改进，在不重新训练的情况下提供两种硬件自适应的解码路径。该方法能在H100和H20 GPU上实现高效推理，并包含TransGQLA用于转换预训练的GQA模型。

来源arXiv Machine Learning作者: Fanxu Meng

在大型语言模型推理中，注意力机制是决定性能和效率的关键组件。DeepSeek-V2/V3采用的多头潜在注意力（MLA）通过将键和值联合压缩到低秩潜在空间，几乎完美匹配了H100 GPU的计算与存储roofline。然而，MLA的训练权重仅暴露一种解码路径——吸收式多查询注意力（MQA）形式。这意味着高效推理严重依赖于H100级别的计算带宽比，无法利用沿头维度的张量并行，并且在像H20这样受出口限制的商用GPU上无法获得多token预测（MTP）带来的加速优势。

针对这一局限，研究者提出了分组查询潜在注意力（GQLA），作为MLA的最小修改方案。GQLA的训练权重在同一参数集上暴露两种代数等价的解码路径：一条是与MLA相同的MQA吸收路径，另一条是带有每组扩展缓存的分组查询注意力（GQA）路径。在运行时，系统会根据目标硬件的特性自动选择最合适的路径，无需重新训练或自定义内核。因此，同一组GQLA权重能够在H100上使用MQA吸收路径（s_q=1）达到roofline性能，同时在H20上切换到GQA路径（s_q=2）并利用MTP加速，并在GQA路径上支持最多8路的零冗余张量并行。

为了降低部署成本，研究者还将TransMLA扩展为TransGQLA，用于将预训练的GQA检查点转换为GQLA模型。在LLaMA-3-8B上的实验显示，在MQA吸收路径上，每个token的KV缓存大小压缩至GQA基线的28.125%，同时在每组路径上保留了GQA级别的流量结构。这一方法不仅提升了推理效率，还增强了模型在不同硬件环境下的部署灵活性。GQLA的提出为大型语言模型在多样化硬件上的高效推理提供了一种简洁实用的解决方案，尤其对受出口限制的GPU部署具有重要意义。