2026-07-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 16:05 UTC+8

梯度平滑：耦合层更新以优化优化

本文提出深度梯度增强框架，通过沿深度维度变换优化器更新来利用层间结构关系。其中梯度平滑方法直接作用于任意基优化器（如SGD、Adam、Muon）的块更新，计算开销小，在语言模型预训练、推理后训练、扩散模型和视觉Transformer中均一致提升优化与泛化性能，并促进更有结构的表示演化。

来源arXiv Machine Learning作者: Haoming Meng, Anton Sugolov, Vardan Papyan

深度神经网络中重复的架构模块（如Transformer）在训练过程中往往会展现出层间的结构关系。这一现象启发了研究者提出一种新的优化范式——深度梯度增强（Depth-wise Gradient Augmentation），旨在通过沿深度维度对优化器更新进行变换，来耦合各层的更新过程。该框架的核心思想是：不是独立地更新每一层，而是将各层的块更新视为一个序列，并对其施加平滑操作。

具体而言，论文研究了梯度平滑（Gradient Smoothing）方法族，并实例化为一种简单的局部窗口平滑（Window Smoothing）算子。该方法直接作用于任意基础优化器（如SGD、Adam、Muon）产生的块更新，计算开销极小，且无需修改模型架构或训练目标，易于集成到现有优化流水线中。

实验部分，研究者在多种架构和训练场景中评估了梯度平滑的效果，包括语言模型预训练、大语言模型的推理强化学习后训练、扩散模型以及视觉Transformer的图像分类任务。结果表明，梯度平滑在所有任务上均一致地提升了优化速度和泛化性能，同时促进了深度方向表示演化的结构规则性。论文将这一效果解释为一种结构化的深度预调节方法。

进一步分析显示，梯度平滑通过平滑跨层的梯度更新，使得各层的学习信号更加一致，减少了层间的干扰，从而加速收敛并改善最终性能。该方法不仅适用于常见的优化器，还能与先进的优化技术（如Muon）协同工作，展现出广泛的适用性。

总之，深度梯度增强为利用跨深度结构优化提供了有前景的框架，而梯度平滑作为其简单且广泛适用的实例，展现出显著的实用价值。该工作已被ICML 2026接收，论文作者来自多家机构，代码已在GitHub开源。