Prism Transformer:分層注意力處理的漸進式頭部分配方案
Prism Transformer 提出了一種漸進式頭部分配方案,在每層中增加註意力頭數量,形成從局部到全局的表示層次結構。該方法在不增加參數或計算量的情況下,在多個零樣本基準測試上取得了一致改進。
標準Transformer中,多頭注意力機制在每個層將隱藏維度均等分配給所有頭,導致每個頭的表示子空間維度固定(dh = dmodel/h)。這種統一分配方式限制了早期層捕捉複雜高維上下文模式的能力,因為早期層的頭被限制在低維空間中,難以捕獲豐富的組合模式。為解決這一結構瓶頸,Shubham Aggarwal 在2026年6月提交的論文中提出了Prism Transformer,這是一種全新的架構範式,用漸進式頭部分配方案替代了靜態均勻的頭配置。
Prism Transformer的核心思想是隨着層數增加,注意力頭的數量單調遞增。在淺層,使用較少但更寬的注意力頭,使其能夠有效捕獲局部的複雜組合模式;在深層,則使用許多較窄的頭,將這些模式分解為專門的語言特徵。這種結構變化巧妙地利用了標準Transformer已有的權重矩陣和FLOP預算,不增加任何參數或計算開銷,實現了從局部到全局的表示層次。
實驗在三種模型規模(124M、354M和757M參數)上進行。Prism Transformer在驗證損失上持續低於統一基線,並且在多個零樣本下游基準測試(PIQA、HellaSwag、ARC-Easy和WinoGrande)中取得了一致提升。這項工作表明,非均勻子空間分配能夠解鎖標準Transformer預算內的潛在容量,使模型能力得到更有效的利用。這一發現為未來Transformer架構的設計提供了新思路,可能影響模型選型、推理成本和產品能力。