2026-07-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 16:01 UTC+8

层级全局注意力（HGA）

层级全局注意力（HGA）是一种即插即用的替代方案，用于预训练长上下文Transformer中的密集因果注意力。它无需重新训练或校准，即可在单个RTX 5090上实现64K token上下文，通过分层路由大幅降低GPU内存占用，且质量损失极小。

来源arXiv Machine Learning作者: Woernle Frank, Fedosov Vladimir, Grinenko Artemiy

层级全局注意力（Hierarchical Global Attention, HGA）是一种针对预训练长上下文Transformer的新型稀疏注意力机制，可作为密集因果注意力的直接替代方案。该方法的核心优势在于完全保留原始检查点参数：预训练中的W_Q、W_K、W_V和W_O投影保持原样，无需引入任何校准参数，也无需进行重新训练。这意味着任何已经预训练好的模型都可以直接替换注意力层，而无需额外的微调步骤，大大降低了部署门槛。

研究团队将HGA应用于Qwen3-30B-A3B-Instruct-2507-FP8模型，在单个RTX 5090（32GB）显卡上成功实现了64K token的上下文长度。在此硬件上，传统的逐token K/V存储方案不可行，因为32GB显存无法容纳完整的K/V缓存。但HGA通过分层路由机制使这一目标成为可能，展示了其在资源受限设备上的巨大潜力。

HGA区别于以往的稀疏注意力方法，其关键创新在于分层两阶段路由。首先，该方法使用紧凑的RoPE感知摘要来检索相关块；然后，通过仅路由最相关的组来细化选择，最后在选定的token集上执行精确的逐token注意力。这种分层检索显著减少了需要获取的token数量，同时保持了对检索集的精确注意力，使得基于RAM和NVMe的存储方案变得实用。具体而言，完整的历史token K/V存储在主机RAM或NVMe存储中，而在注意力计算期间，只有少量的路由工作集被传输到GPU内存。因此，GPU内存消耗主要取决于模型权重和路由工作集，而非总上下文长度。

在4K到64K token的所有测试上下文长度下，HGA的路由注意力与密集注意力的差异保持在约0.01至0.02 nats范围内，而使用的稀疏度仅为约3%。这些结果表明，分层路由引入的近似误差很小，剩余的质量差距很可能由长上下文位置编码主导，而非路由算法本身。该研究为在有限硬件上运行长上下文模型提供了切实可行的解决方案，对模型部署和推理效率具有重要影响。