2026-06-18站内改写1 分钟阅读更新: 2026-06-18

高斯混合注意力：通过概率潜在路由实现线性时间序列混合

高斯混合注意力（GMA）是一种新的注意力机制，它通过K个学习到的高斯混合组件进行路由，避免了标准点积注意力的二次复杂度，实现了O(NK)的线性内存缩放。实验表明，GMA在长上下文分类任务上与注意力基线竞争，因果GMA在WikiText-103上优于线性/随机特征注意力，但落后于优化后的因果SDPA和Mamba。GMA提供了一种可解释的、固定K的线性时间注意力替代方案。

来源arXiv Machine Learning作者: Yongchao Huang, Hassan Raza

标准点积注意力中的密集标记对标记交互模式仍然是扩展Transformer架构到长上下文的主要瓶颈。为了解决这一问题，研究人员提出了高斯混合注意力（Gaussian Mixture Attention, GMA），这是一种概率性的注意力风格序列混合器。GMA不再进行显式的逐对查询-键比较，而是通过K个学习到的高斯混合组件进行路由。具体而言，查询和键被映射到一个共享的潜在路由空间上的后验责任向量，它们的重叠定义了隐式的责任空间亲和度，而值则被写入并从K槽的潜在记忆中读取。利用矩阵乘法的结合性，GMA避免了构建N×N的亲和矩阵，而是使用两个责任矩阵，其主导激活存储规模对于固定的K为O(NK)而非O(N²)，从而实现了线性时间复杂度和内存缩放。

作者制定了GMA的双向和因果变体，提供了高斯混合组件的端到端可微参数化，并分析了其责任调制梯度结构、约束非负低秩亲和度解释以及局部路由稳定性。实验结果表明，GMA在长上下文分类任务上展现了预期的固定K线性内存缩放，并与注意力基线竞争。在WikiText-103语言建模任务上，因果GMA优于测试的线性/随机特征注意力变体，但在当前实现中仍落后于优化的因果SDPA和Mamba。对学习到的责任的分析进一步显示，组件被广泛使用，并与表面形式的标记类别有中等程度的对齐。这些发现支持GMA作为一种概率性、可解释、固定K的线性时间注意力风格替代方案，而不是优化softmax注意力或状态空间模型的通用替代品。该论文由Yongchao Huang等人提交于2026年6月9日，共计55页，主题为机器学习（cs.LG），并提供了完整的理论分析和实验验证。