2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 15:58 UTC+8

Prism Transformer：分层注意力处理的渐进式头部分配方案

Prism Transformer 提出了一种渐进式头部分配方案，在每层中增加注意力头数量，形成从局部到全局的表示层次结构。该方法在不增加参数或计算量的情况下，在多个零样本基准测试上取得了一致改进。

来源arXiv Machine Learning作者: Shubham Aggarwal

标准Transformer中，多头注意力机制在每个层将隐藏维度均等分配给所有头，导致每个头的表示子空间维度固定（dh = dmodel/h）。这种统一分配方式限制了早期层捕捉复杂高维上下文模式的能力，因为早期层的头被限制在低维空间中，难以捕获丰富的组合模式。为解决这一结构瓶颈，Shubham Aggarwal 在2026年6月提交的论文中提出了Prism Transformer，这是一种全新的架构范式，用渐进式头部分配方案替代了静态均匀的头配置。

Prism Transformer的核心思想是随着层数增加，注意力头的数量单调递增。在浅层，使用较少但更宽的注意力头，使其能够有效捕获局部的复杂组合模式；在深层，则使用许多较窄的头，将这些模式分解为专门的语言特征。这种结构变化巧妙地利用了标准Transformer已有的权重矩阵和FLOP预算，不增加任何参数或计算开销，实现了从局部到全局的表示层次。

实验在三种模型规模（124M、354M和757M参数）上进行。Prism Transformer在验证损失上持续低于统一基线，并且在多个零样本下游基准测试（PIQA、HellaSwag、ARC-Easy和WinoGrande）中取得了一致提升。这项工作表明，非均匀子空间分配能够解锁标准Transformer预算内的潜在容量，使模型能力得到更有效的利用。这一发现为未来Transformer架构的设计提供了新思路，可能影响模型选型、推理成本和产品能力。