梯度平滑:耦合层更新以优化优化
本文提出深度梯度增强框架,通过沿深度维度变换优化器更新来利用层间结构关系。其中梯度平滑方法直接作用于任意基优化器(如SGD、Adam、Muon)的块更新,计算开销小,在语言模型预训练、推理后训练、扩散模型和视觉Transformer中均一致提升优化与泛化性能,并促进更有结构的表示演化。
深度神经网络中重复的架构模块(如Transformer)在训练过程中往往会展现出层间的结构关系。这一现象启发了研究者提出一种新的优化范式——深度梯度增强(Depth-wise Gradient Augmentation),旨在通过沿深度维度对优化器更新进行变换,来耦合各层的更新过程。该框架的核心思想是:不是独立地更新每一层,而是将各层的块更新视为一个序列,并对其施加平滑操作。
具体而言,论文研究了梯度平滑(Gradient Smoothing)方法族,并实例化为一种简单的局部窗口平滑(Window Smoothing)算子。该方法直接作用于任意基础优化器(如SGD、Adam、Muon)产生的块更新,计算开销极小,且无需修改模型架构或训练目标,易于集成到现有优化流水线中。
实验部分,研究者在多种架构和训练场景中评估了梯度平滑的效果,包括语言模型预训练、大语言模型的推理强化学习后训练、扩散模型以及视觉Transformer的图像分类任务。结果表明,梯度平滑在所有任务上均一致地提升了优化速度和泛化性能,同时促进了深度方向表示演化的结构规则性。论文将这一效果解释为一种结构化的深度预调节方法。
进一步分析显示,梯度平滑通过平滑跨层的梯度更新,使得各层的学习信号更加一致,减少了层间的干扰,从而加速收敛并改善最终性能。该方法不仅适用于常见的优化器,还能与先进的优化技术(如Muon)协同工作,展现出广泛的适用性。
总之,深度梯度增强为利用跨深度结构优化提供了有前景的框架,而梯度平滑作为其简单且广泛适用的实例,展现出显著的实用价值。该工作已被ICML 2026接收,论文作者来自多家机构,代码已在GitHub开源。