AI News HubLIVE
站内改写1 分钟阅读

WAV:深度解码器专用Transformer的多分辨率块残差路由

本文提出WAV v1,一种轻量级多分辨率残差路由方法。标准残差流使用固定权重聚合,而近期方法通过内容相关路由改善,但块级摘要丢失了注意力与MLP不平衡等方向性结构。WAV v1为每个块添加相位基和分裂基两个方向细节基,与块摘要一起通过深度softmax混合器路由,并采用负细节源初始化和分离RMS匹配稳定训练。在字符级TinyStories和Text8语言建模上,WAV v1在12层时效果不显著,24层具有竞争力,48层显著优于所有基线,验证损失分别从0.4960降至0.4738和从0.9363降至0.9305,参数增加可忽略。结果表明方向性残差细节对于深层Transformer的残差路由缩放至关重要。

来源arXiv Machine Learning作者: Kehan Wang

近日,一篇题为《WAV:深度解码器专用Transformer的多分辨率块残差路由》的论文在arXiv上发布。该研究针对深度Transformer中的残差连接问题,提出了一种轻量级多分辨率残差路由方法WAV v1。

在标准PreNorm残差流中,子层更新以固定单位权重聚合,这限制了模型的表达能力。虽然近期提出的注意力残差(Attention Residuals)通过内容相关的深度路由替代了固定聚合,块注意力残差(Block Attention Residuals)通过路由块级残差摘要提高了效率,但单个块摘要仅存储块内的低频总残差位移,丢失了如注意力与MLP不平衡、早期与后期块动态等方向性结构信息。

WAV v1的核心创新在于,每个块不再仅由累积残差和表示,而是增加了两个方向细节基:相位基(phase basis)用于对比注意力和MLP更新,分裂基(split basis)用于对比早期和后期子层更新。这些基与标准块摘要一起通过相同的深度softmax混合器进行路由。为了稳定训练,论文采用了负细节源初始化(negative detail-source initialization)和分离RMS匹配(detached RMS matching)。

实验在字符级TinyStories和Text8语言建模任务上进行。结果显示,WAV v1的性能与深度密切相关:在12层时并不稳定,但在24层时变得具有竞争力,而在48层时显著优于所有基线。具体而言,在48层条件下,WAV v1将验证损失从块注意力残差(Block AttnRes)的0.4960降至0.4738(TinyStories),从0.9363降至0.9305(Text8),且仅增加了可忽略的额外参数。

这些发现表明,方向性残差细节(而不仅仅是块级和)对于深层Transformer的残差路由缩放至关重要。该工作为未来设计更深、更高效的Transformer架构提供了新的思路。