冲击波理论与对称约简随机梯度下降在人工神经网络中的联系
本文建立了冲击波理论与随机梯度下降对称商学习动态之间的数学显式联系,利用微分几何、李群理论和流体力学。在商掉参数对称性并应用局部熵粗粒化后,有效动态满足商流形上的粘性Hamilton-Jacobi方程。进一步假设原始参数动态可由商空间上的梯度场概括,则粗粒化损失函数的梯度服从Burgers型方程,可严格证明冲击形成。该理论应用于多层感知器、卷积神经网络、Transformer和平均场网络,并证明它们满足Hamilton-Jacobi或Burgers型方程。作者推测该框架可为深度学习提供实用诊断工具,尤其是在Transformer等架构中,原始参数范数常因对称冗余而失真,而对称校正的商可观测量为监测、预测和控制训练阶段转变提供了原则性基础。
近日,一篇发表于2026年国际人工神经网络会议(ICANN)的论文《A Link between Shock-wave Theory and Symmetry-reduced Stochastic Gradient Descent for Artificial Neural Networks》提出了冲击波理论与神经网络训练动态之间的数学联系。该研究由Taiki Miyagawa完成,利用微分几何、李群理论和流体力学等工具,探索了随机梯度下降(SGD)在对称性约简下的学习动态。
研究团队发现,在对参数空间进行对称商化并应用局部熵粗粒化技术后,学习动态可被描述为商流形上的粘性Hamilton-Jacobi方程。进一步,如果原始参数动态可被商空间上的梯度场概括,粗粒化损失函数的梯度则服从Burgers型方程,并可以严格证明冲击波的形成。这一发现为理解深度学习中非凸优化的非线性行为提供了新视角。
该理论被应用于多种主流神经网络架构,包括多层感知器(MLP)、卷积神经网络(CNN)、Transformer和平均场网络。实验表明,这些网络的学习动态均满足Hamilton-Jacobi或Burgers型方程,验证了理论的普适性。论文指出,在Transformer等架构中,原始参数范数常因对称冗余而失真,导致监控信号产生误导。相比之下,经过对称校正的商可观测量提供了更可靠的基础,可用于监测、预测甚至控制训练过程中的相变。
作者认为,该框架不仅深化了对深度学习动态的理论理解,还有望发展出实用的诊断工具。例如,通过观测商空间中的动态模式,研究人员可以提前识别训练不稳定的迹象,并采取相应调整。这一工作将流体力学中的经典理论与现代机器学习相结合,为跨学科研究开辟了新途径。论文已被ICANN 2026接收,更多细节可参阅arXiv:2606.18303。