2026-06-08 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

WAV：深度解码器专用Transformer的多分辨率块残差路由

本文提出WAV v1，一种轻量级多分辨率残差路由方法。标准残差流使用固定权重聚合，而近期方法通过内容相关路由改善，但块级摘要丢失了注意力与MLP不平衡等方向性结构。WAV v1为每个块添加相位基和分裂基两个方向细节基，与块摘要一起通过深度softmax混合器路由，并采用负细节源初始化和分离RMS匹配稳定训练。在字符级TinyStories和Text8语言建模上，WAV v1在12层时效果不显著，24层具有竞争力，48层显著优于所有基线，验证损失分别从0.4960降至0.4738和从0.9363降至0.9305，参数增加可忽略。结果表明方向性残差细节对于深层Transformer的残差路由缩放至关重要。

来源arXiv Machine Learning作者: Kehan Wang

近日，一篇题为《WAV：深度解码器专用Transformer的多分辨率块残差路由》的论文在arXiv上发布。该研究针对深度Transformer中的残差连接问题，提出了一种轻量级多分辨率残差路由方法WAV v1。

在标准PreNorm残差流中，子层更新以固定单位权重聚合，这限制了模型的表达能力。虽然近期提出的注意力残差（Attention Residuals）通过内容相关的深度路由替代了固定聚合，块注意力残差（Block Attention Residuals）通过路由块级残差摘要提高了效率，但单个块摘要仅存储块内的低频总残差位移，丢失了如注意力与MLP不平衡、早期与后期块动态等方向性结构信息。

WAV v1的核心创新在于，每个块不再仅由累积残差和表示，而是增加了两个方向细节基：相位基（phase basis）用于对比注意力和MLP更新，分裂基（split basis）用于对比早期和后期子层更新。这些基与标准块摘要一起通过相同的深度softmax混合器进行路由。为了稳定训练，论文采用了负细节源初始化（negative detail-source initialization）和分离RMS匹配（detached RMS matching）。

实验在字符级TinyStories和Text8语言建模任务上进行。结果显示，WAV v1的性能与深度密切相关：在12层时并不稳定，但在24层时变得具有竞争力，而在48层时显著优于所有基线。具体而言，在48层条件下，WAV v1将验证损失从块注意力残差（Block AttnRes）的0.4960降至0.4738（TinyStories），从0.9363降至0.9305（Text8），且仅增加了可忽略的额外参数。

这些发现表明，方向性残差细节（而不仅仅是块级和）对于深层Transformer的残差路由缩放至关重要。该工作为未来设计更深、更高效的Transformer架构提供了新的思路。