通过局部体积研究随机网络的归纳偏差
本文利用星形域体积估计研究随机神经网络的参数-函数映射的归纳偏差。实验表明,局部体积度量未能复现先前研究(神经红移)的结果,且与学习行为相关性较弱,暗示单一复杂度度量可能不足以捕捉神经网络的归纳偏差。
神经网络泛化能力的关键在于其归纳偏差——即架构本身对特定任务的偏向性。为了深入理解这一特性,EleutherAI的研究人员Louis Jaburi和Nora Belrose通过星形域体积估计方法,分析了随机网络在初始化时的参数-函数映射几何结构。该工作建立在神经红移(Neural Redshift, NRS)等前期研究基础上。NRS假设流行架构对简单函数存在归纳偏好,且复杂度随训练增加。但新研究通过局部体积度量(源于EleutherAI之前的论文《随机采样训练神经网络概率估计》)进行了验证实验。
研究者首先介绍了归纳偏差的重要性:给定固定架构,某些任务容易学习,而另一些可能需要指数级时间。他们希望了解不同架构能够(或不能)解决哪些训练任务,找到何种解,以及是否具有共享属性,特别是与参数-函数映射几何相关的属性。更精确地说,他们希望初始化时的网络属性已经决定了训练过程中的网络属性,从而能够提前预测训练后的网络。
参数-函数映射是连接权重空间与函数空间的桥梁。该映射是完全任务无关的,不考虑训练分布。为了比较函数,研究者选择了平均KL散度作为度量,因为它既依赖于数据分布又不依赖于标签。在实验中,他们尝试了均匀分布和基于训练数据的分布,未观察到显著差异。
局部体积的概念基于盆地体积假设:参数空间中不同区域的体积比大致决定收敛到该区域的几率。研究者将每个区域定义为星形域——从初始点出发沿每个方向满足成本函数阈值的点集。他们通过采样随机方向、计算半径、进行高斯积分来估计体积。使用高斯积分而非简单的半径n次方是因为某些方向可能使成本函数不变导致无限体积。高斯测度使得体积可解释为随机采样到训练后网络的概率。
实验设置涉及随机神经网络,变化包括:额外层数(1-5层)、激活函数(ReLU, GELU, Tanh, Sigmoid, Gaussian)和权重尺度(10^{-0.5}到10^{0.5}对数步长)。初始化采用PyTorch默认的均匀分布。他们运行了两类实验:初始化实验中计算不同架构下星形域的体积,每个设置使用100个不同种子;训练实验则在模块化加法任务上训练网络,并在检查点计算体积。
初始化实验未能复现NRS的发现:他们未观察到更高权重幅度或更多层数导致体积降低(根据盆地体积假设,这对应更复杂解)。训练实验同样未发现体积是学习行为的好预测器:虽然训练普遍降低体积,但具有相似局部体积的架构(如ReLU和GELU)表现出不同学习行为(更多GELU出现了“顿悟”现象)。最终体积与网络学习行为似乎没有良好相关性。
结论指出,归纳偏差确实重要,但试图通过一维复杂度度量(如局部体积)捕捉其全貌可能不现实。作者表示将继续探索参数-函数映射与损失景观的几何描述,但需寻找局部体积之外的度量方式。