2025-06-12 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

透過區域性體積研究隨機網路的歸納偏差

本文利用星形域體積估計研究隨機神經網路的引數-函式對映的歸納偏差。實驗表明，區域性體積度量未能復現先前研究（神經紅移）的結果，且與學習行為相關性較弱，暗示單一複雜度度量可能不足以捕捉神經網路的歸納偏差。

神經網路泛化能力的關鍵在於其歸納偏差——即架構本身對特定任務的偏向性。為了深入理解這一特性，EleutherAI的研究人員Louis Jaburi和Nora Belrose透過星形域體積估計方法，分析了隨機網路在初始化時的引數-函式對映幾何結構。該工作建立在神經紅移（Neural Redshift, NRS）等前期研究基礎上。NRS假設流行架構對簡單函式存在歸納偏好，且複雜度隨訓練增加。但新研究透過區域性體積度量（源於EleutherAI之前的論文《隨機取樣訓練神經網路機率估計》）進行了驗證實驗。

研究者首先介紹了歸納偏差的重要性：給定固定架構，某些任務容易學習，而另一些可能需要指數級時間。他們希望瞭解不同架構能夠（或不能）解決哪些訓練任務，找到何種解，以及是否具有共享屬性，特別是與引數-函式對映幾何相關的屬性。更精確地說，他們希望初始化時的網路屬性已經決定了訓練過程中的網路屬性，從而能夠提前預測訓練後的網路。

引數-函式對映是連線權重空間與函式空間的橋樑。該對映是完全任務無關的，不考慮訓練分佈。為了比較函式，研究者選擇了平均KL散度作為度量，因為它既依賴於資料分佈又不依賴於標籤。在實驗中，他們嘗試了均勻分佈和基於訓練資料的分佈，未觀察到顯著差異。

區域性體積的概念基於盆地體積假設：引數空間中不同區域的體積比大致決定收斂到該區域的機率。研究者將每個區域定義為星形域——從初始點出發沿每個方向滿足成本函式閾值的點集。他們透過取樣隨機方向、計算半徑、進行高斯積分來估計體積。使用高斯積分而非簡單的半徑n次方是因為某些方向可能使成本函式不變導致無限體積。高斯測度使得體積可解釋為隨機取樣到訓練後網路的機率。

實驗設定涉及隨機神經網路，變化包括：額外層數（1-5層）、啟用函式（ReLU, GELU, Tanh, Sigmoid, Gaussian）和權重尺度（10^{-0.5}到10^{0.5}對數步長）。初始化採用PyTorch預設的均勻分佈。他們執行了兩類實驗：初始化實驗中計算不同架構下星形域的體積，每個設定使用100個不同種子；訓練實驗則在模組化加法任務上訓練網路，並在檢查點計算體積。

初始化實驗未能復現NRS的發現：他們未觀察到更高權重幅度或更多層數導致體積降低（根據盆地體積假設，這對應更復雜解）。訓練實驗同樣未發現體積是學習行為的好預測器：雖然訓練普遍降低體積，但具有相似區域性體積的架構（如ReLU和GELU）表現出不同學習行為（更多GELU出現了“頓悟”現象）。最終體積與網路學習行為似乎沒有良好相關性。

結論指出，歸納偏差確實重要，但試圖透過一維複雜度度量（如區域性體積）捕捉其全貌可能不現實。作者表示將繼續探索引數-函式對映與損失景觀的幾何描述，但需尋找區域性體積之外的度量方式。