2025-06-12 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

通過局部體積研究隨機網絡的歸納偏差

本文利用星形域體積估計研究隨機神經網絡的參數-函數映射的歸納偏差。實驗表明，局部體積度量未能復現先前研究（神經紅移）的結果，且與學習行為相關性較弱，暗示單一複雜度度量可能不足以捕捉神經網絡的歸納偏差。

神經網絡泛化能力的關鍵在於其歸納偏差——即架構本身對特定任務的偏向性。為了深入理解這一特性，EleutherAI的研究人員Louis Jaburi和Nora Belrose通過星形域體積估計方法，分析了隨機網絡在初始化時的參數-函數映射幾何結構。該工作建立在神經紅移（Neural Redshift, NRS）等前期研究基礎上。NRS假設流行架構對簡單函數存在歸納偏好，且複雜度隨訓練增加。但新研究通過局部體積度量（源於EleutherAI之前的論文《隨機採樣訓練神經網絡概率估計》）進行了驗證實驗。

研究者首先介紹了歸納偏差的重要性：給定固定架構，某些任務容易學習，而另一些可能需要指數級時間。他們希望瞭解不同架構能夠（或不能）解決哪些訓練任務，找到何種解，以及是否具有共享屬性，特別是與參數-函數映射幾何相關的屬性。更精確地説，他們希望初始化時的網絡屬性已經決定了訓練過程中的網絡屬性，從而能夠提前預測訓練後的網絡。

參數-函數映射是連接權重空間與函數空間的橋樑。該映射是完全任務無關的，不考慮訓練分佈。為了比較函數，研究者選擇了平均KL散度作為度量，因為它既依賴於數據分佈又不依賴於標籤。在實驗中，他們嘗試了均勻分佈和基於訓練數據的分佈，未觀察到顯著差異。

局部體積的概念基於盆地體積假設：參數空間中不同區域的體積比大致決定收斂到該區域的幾率。研究者將每個區域定義為星形域——從初始點出發沿每個方向滿足成本函數閾值的點集。他們通過採樣隨機方向、計算半徑、進行高斯積分來估計體積。使用高斯積分而非簡單的半徑n次方是因為某些方向可能使成本函數不變導致無限體積。高斯測度使得體積可解釋為隨機採樣到訓練後網絡的概率。

實驗設置涉及隨機神經網絡，變化包括：額外層數（1-5層）、激活函數（ReLU, GELU, Tanh, Sigmoid, Gaussian）和權重尺度（10^{-0.5}到10^{0.5}對數步長）。初始化採用PyTorch默認的均勻分佈。他們運行了兩類實驗：初始化實驗中計算不同架構下星形域的體積，每個設置使用100個不同種子；訓練實驗則在模塊化加法任務上訓練網絡，並在檢查點計算體積。

初始化實驗未能復現NRS的發現：他們未觀察到更高權重幅度或更多層數導致體積降低（根據盆地體積假設，這對應更復雜解）。訓練實驗同樣未發現體積是學習行為的好預測器：雖然訓練普遍降低體積，但具有相似局部體積的架構（如ReLU和GELU）表現出不同學習行為（更多GELU出現了“頓悟”現象）。最終體積與網絡學習行為似乎沒有良好相關性。

結論指出，歸納偏差確實重要，但試圖通過一維複雜度度量（如局部體積）捕捉其全貌可能不現實。作者表示將繼續探索參數-函數映射與損失景觀的幾何描述，但需尋找局部體積之外的度量方式。