AI News HubLIVE
站内改写1 分钟阅读

Prism Transformer:分层注意力处理的渐进式头部分配方案

Prism Transformer 提出了一种渐进式头部分配方案,在每层中增加注意力头数量,形成从局部到全局的表示层次结构。该方法在不增加参数或计算量的情况下,在多个零样本基准测试上取得了一致改进。

来源arXiv Machine Learning作者: Shubham Aggarwal

标准Transformer中,多头注意力机制在每个层将隐藏维度均等分配给所有头,导致每个头的表示子空间维度固定(dh = dmodel/h)。这种统一分配方式限制了早期层捕捉复杂高维上下文模式的能力,因为早期层的头被限制在低维空间中,难以捕获丰富的组合模式。为解决这一结构瓶颈,Shubham Aggarwal 在2026年6月提交的论文中提出了Prism Transformer,这是一种全新的架构范式,用渐进式头部分配方案替代了静态均匀的头配置。

Prism Transformer的核心思想是随着层数增加,注意力头的数量单调递增。在浅层,使用较少但更宽的注意力头,使其能够有效捕获局部的复杂组合模式;在深层,则使用许多较窄的头,将这些模式分解为专门的语言特征。这种结构变化巧妙地利用了标准Transformer已有的权重矩阵和FLOP预算,不增加任何参数或计算开销,实现了从局部到全局的表示层次。

实验在三种模型规模(124M、354M和757M参数)上进行。Prism Transformer在验证损失上持续低于统一基线,并且在多个零样本下游基准测试(PIQA、HellaSwag、ARC-Easy和WinoGrande)中取得了一致提升。这项工作表明,非均匀子空间分配能够解锁标准Transformer预算内的潜在容量,使模型能力得到更有效的利用。这一发现为未来Transformer架构的设计提供了新思路,可能影响模型选型、推理成本和产品能力。