2026-06-04 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

耦合梯度下降中瞬态放大的伪谱界

本文针对耦合梯度下降算法（常见于双层优化、两时间尺度随机逼近和对抗训练）中的瞬态放大现象，提出了一个尖锐的伪谱分析。作者证明了块三角雅可比矩阵的Kreiss常数界限，并给出了有限时间迭代复杂度界。该理论揭示了传统谱分析无法看到的非渐近高维学习动力学区域，在线性二次型问题和神经网络训练中的实验证实了该理论。

来源arXiv Machine Learning作者: Ahanaf Hasan Ariq

耦合梯度下降算法广泛应用于双层优化、两时间尺度随机逼近和对抗训练等领域。在这种算法中，一个参数块的更新依赖于另一个参数块，其耦合雅可比矩阵呈块三角结构。虽然渐近稳定性由对角块的谱半径决定，但由于非正态性，收敛前的瞬态放大可能任意大。传统的谱半径分析无法捕捉这一现象，因为非正态矩阵的谱半径只能刻画长期行为，而无法预测短期内的巨大波动。本文针对这一挑战，建立了一套针对块三角雅可比矩阵的尖锐伪谱理论。

作者证明，当对角块对称且谱半径不超过γ<1时，Kreiss常数满足K(J) ≤ 2/(1-γ) + ‖C‖/(4(1-γ))，并建立了匹配的极小极大下界。该结果刻画了瞬态放大的最坏情况，为理解耦合下降的动力学提供了关键工具。Kreiss常数是衡量矩阵非正态性的重要指标，它直接决定了系统在有限步内可能达到的最大放大倍数。通过这一界限，研究者可以精确估计算法在收敛前可能经历的瞬态放大幅度，从而设计更稳定的优化方案。

进一步地，论文表征了光谱不稳定的临界耦合阈值，并通过诺伊曼级数扰动框架将分析扩展到近自指系统。这一扩展使得理论能够处理更一般的耦合结构，例如在元学习和强化学习中常见的嵌套优化问题。作为直接应用，作者得到了随机耦合下降的有限步迭代复杂度界O(K(J)^2 log(1/δ))，这表明瞬态放大直接影响算法的收敛速度。具体而言，迭代复杂度与Kreiss常数的平方成正比，这意味着非正态性越强，算法所需的迭代次数越多。

该理论被置于非平稳两时间尺度优化的标度律框架中，揭示了一个非渐近的、与实例相关的高维学习动力学区域，该区域对谱半径分析不可见。传统谱半径分析只能给出渐近收敛率，而无法捕捉有限时间内的复杂行为。本文的伪谱方法则能精确描述这一中间阶段，为理解深度学习中许多反直觉的现象提供了理论基础。原文在线性二次型问题、IQC对比以及神经网络训练上的实验，均与理论预测高度一致，进一步验证了该方法的有效性。