2026-06-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 15:58 UTC+8

Prism Transformer：分層注意力處理的漸進式頭部分配方案

Prism Transformer 提出了一種漸進式頭部分配方案，在每層中增加註意力頭數量，形成從局部到全局的表示層次結構。該方法在不增加參數或計算量的情況下，在多個零樣本基準測試上取得了一致改進。

來源arXiv Machine Learning作者: Shubham Aggarwal

標準Transformer中，多頭注意力機制在每個層將隱藏維度均等分配給所有頭，導致每個頭的表示子空間維度固定（dh = dmodel/h）。這種統一分配方式限制了早期層捕捉複雜高維上下文模式的能力，因為早期層的頭被限制在低維空間中，難以捕獲豐富的組合模式。為解決這一結構瓶頸，Shubham Aggarwal 在2026年6月提交的論文中提出了Prism Transformer，這是一種全新的架構範式，用漸進式頭部分配方案替代了靜態均勻的頭配置。

Prism Transformer的核心思想是隨着層數增加，注意力頭的數量單調遞增。在淺層，使用較少但更寬的注意力頭，使其能夠有效捕獲局部的複雜組合模式；在深層，則使用許多較窄的頭，將這些模式分解為專門的語言特徵。這種結構變化巧妙地利用了標準Transformer已有的權重矩陣和FLOP預算，不增加任何參數或計算開銷，實現了從局部到全局的表示層次。

實驗在三種模型規模（124M、354M和757M參數）上進行。Prism Transformer在驗證損失上持續低於統一基線，並且在多個零樣本下游基準測試（PIQA、HellaSwag、ARC-Easy和WinoGrande）中取得了一致提升。這項工作表明，非均勻子空間分配能夠解鎖標準Transformer預算內的潛在容量，使模型能力得到更有效的利用。這一發現為未來Transformer架構的設計提供了新思路，可能影響模型選型、推理成本和產品能力。