2025-06-12 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

通过局部体积研究随机网络的归纳偏差

本文利用星形域体积估计研究随机神经网络的参数-函数映射的归纳偏差。实验表明，局部体积度量未能复现先前研究（神经红移）的结果，且与学习行为相关性较弱，暗示单一复杂度度量可能不足以捕捉神经网络的归纳偏差。

神经网络泛化能力的关键在于其归纳偏差——即架构本身对特定任务的偏向性。为了深入理解这一特性，EleutherAI的研究人员Louis Jaburi和Nora Belrose通过星形域体积估计方法，分析了随机网络在初始化时的参数-函数映射几何结构。该工作建立在神经红移（Neural Redshift, NRS）等前期研究基础上。NRS假设流行架构对简单函数存在归纳偏好，且复杂度随训练增加。但新研究通过局部体积度量（源于EleutherAI之前的论文《随机采样训练神经网络概率估计》）进行了验证实验。

研究者首先介绍了归纳偏差的重要性：给定固定架构，某些任务容易学习，而另一些可能需要指数级时间。他们希望了解不同架构能够（或不能）解决哪些训练任务，找到何种解，以及是否具有共享属性，特别是与参数-函数映射几何相关的属性。更精确地说，他们希望初始化时的网络属性已经决定了训练过程中的网络属性，从而能够提前预测训练后的网络。

参数-函数映射是连接权重空间与函数空间的桥梁。该映射是完全任务无关的，不考虑训练分布。为了比较函数，研究者选择了平均KL散度作为度量，因为它既依赖于数据分布又不依赖于标签。在实验中，他们尝试了均匀分布和基于训练数据的分布，未观察到显著差异。

局部体积的概念基于盆地体积假设：参数空间中不同区域的体积比大致决定收敛到该区域的几率。研究者将每个区域定义为星形域——从初始点出发沿每个方向满足成本函数阈值的点集。他们通过采样随机方向、计算半径、进行高斯积分来估计体积。使用高斯积分而非简单的半径n次方是因为某些方向可能使成本函数不变导致无限体积。高斯测度使得体积可解释为随机采样到训练后网络的概率。

实验设置涉及随机神经网络，变化包括：额外层数（1-5层）、激活函数（ReLU, GELU, Tanh, Sigmoid, Gaussian）和权重尺度（10^{-0.5}到10^{0.5}对数步长）。初始化采用PyTorch默认的均匀分布。他们运行了两类实验：初始化实验中计算不同架构下星形域的体积，每个设置使用100个不同种子；训练实验则在模块化加法任务上训练网络，并在检查点计算体积。

初始化实验未能复现NRS的发现：他们未观察到更高权重幅度或更多层数导致体积降低（根据盆地体积假设，这对应更复杂解）。训练实验同样未发现体积是学习行为的好预测器：虽然训练普遍降低体积，但具有相似局部体积的架构（如ReLU和GELU）表现出不同学习行为（更多GELU出现了“顿悟”现象）。最终体积与网络学习行为似乎没有良好相关性。

结论指出，归纳偏差确实重要，但试图通过一维复杂度度量（如局部体积）捕捉其全貌可能不现实。作者表示将继续探索参数-函数映射与损失景观的几何描述，但需寻找局部体积之外的度量方式。