AI News HubLIVE
站内改写1 分钟阅读

高斯混合注意力:通过概率潜在路由实现线性时间序列混合

高斯混合注意力(GMA)是一种新的注意力机制,它通过K个学习到的高斯混合组件进行路由,避免了标准点积注意力的二次复杂度,实现了O(NK)的线性内存缩放。实验表明,GMA在长上下文分类任务上与注意力基线竞争,因果GMA在WikiText-103上优于线性/随机特征注意力,但落后于优化后的因果SDPA和Mamba。GMA提供了一种可解释的、固定K的线性时间注意力替代方案。

来源arXiv Machine Learning作者: Yongchao Huang, Hassan Raza

标准点积注意力中的密集标记对标记交互模式仍然是扩展Transformer架构到长上下文的主要瓶颈。为了解决这一问题,研究人员提出了高斯混合注意力(Gaussian Mixture Attention, GMA),这是一种概率性的注意力风格序列混合器。GMA不再进行显式的逐对查询-键比较,而是通过K个学习到的高斯混合组件进行路由。具体而言,查询和键被映射到一个共享的潜在路由空间上的后验责任向量,它们的重叠定义了隐式的责任空间亲和度,而值则被写入并从K槽的潜在记忆中读取。利用矩阵乘法的结合性,GMA避免了构建N×N的亲和矩阵,而是使用两个责任矩阵,其主导激活存储规模对于固定的K为O(NK)而非O(N²),从而实现了线性时间复杂度和内存缩放。

作者制定了GMA的双向和因果变体,提供了高斯混合组件的端到端可微参数化,并分析了其责任调制梯度结构、约束非负低秩亲和度解释以及局部路由稳定性。实验结果表明,GMA在长上下文分类任务上展现了预期的固定K线性内存缩放,并与注意力基线竞争。在WikiText-103语言建模任务上,因果GMA优于测试的线性/随机特征注意力变体,但在当前实现中仍落后于优化的因果SDPA和Mamba。对学习到的责任的分析进一步显示,组件被广泛使用,并与表面形式的标记类别有中等程度的对齐。这些发现支持GMA作为一种概率性、可解释、固定K的线性时间注意力风格替代方案,而不是优化softmax注意力或状态空间模型的通用替代品。该论文由Yongchao Huang等人提交于2026年6月9日,共计55页,主题为机器学习(cs.LG),并提供了完整的理论分析和实验验证。