AI News HubLIVE
站內改寫2 分鐘閱讀

通過局部體積研究隨機網絡的歸納偏差

本文利用星形域體積估計研究隨機神經網絡的參數-函數映射的歸納偏差。實驗表明,局部體積度量未能復現先前研究(神經紅移)的結果,且與學習行為相關性較弱,暗示單一複雜度度量可能不足以捕捉神經網絡的歸納偏差。

神經網絡泛化能力的關鍵在於其歸納偏差——即架構本身對特定任務的偏向性。為了深入理解這一特性,EleutherAI的研究人員Louis Jaburi和Nora Belrose通過星形域體積估計方法,分析了隨機網絡在初始化時的參數-函數映射幾何結構。該工作建立在神經紅移(Neural Redshift, NRS)等前期研究基礎上。NRS假設流行架構對簡單函數存在歸納偏好,且複雜度隨訓練增加。但新研究通過局部體積度量(源於EleutherAI之前的論文《隨機採樣訓練神經網絡概率估計》)進行了驗證實驗。

研究者首先介紹了歸納偏差的重要性:給定固定架構,某些任務容易學習,而另一些可能需要指數級時間。他們希望瞭解不同架構能夠(或不能)解決哪些訓練任務,找到何種解,以及是否具有共享屬性,特別是與參數-函數映射幾何相關的屬性。更精確地説,他們希望初始化時的網絡屬性已經決定了訓練過程中的網絡屬性,從而能夠提前預測訓練後的網絡。

參數-函數映射是連接權重空間與函數空間的橋樑。該映射是完全任務無關的,不考慮訓練分佈。為了比較函數,研究者選擇了平均KL散度作為度量,因為它既依賴於數據分佈又不依賴於標籤。在實驗中,他們嘗試了均勻分佈和基於訓練數據的分佈,未觀察到顯著差異。

局部體積的概念基於盆地體積假設:參數空間中不同區域的體積比大致決定收斂到該區域的幾率。研究者將每個區域定義為星形域——從初始點出發沿每個方向滿足成本函數閾值的點集。他們通過採樣隨機方向、計算半徑、進行高斯積分來估計體積。使用高斯積分而非簡單的半徑n次方是因為某些方向可能使成本函數不變導致無限體積。高斯測度使得體積可解釋為隨機採樣到訓練後網絡的概率。

實驗設置涉及隨機神經網絡,變化包括:額外層數(1-5層)、激活函數(ReLU, GELU, Tanh, Sigmoid, Gaussian)和權重尺度(10^{-0.5}到10^{0.5}對數步長)。初始化採用PyTorch默認的均勻分佈。他們運行了兩類實驗:初始化實驗中計算不同架構下星形域的體積,每個設置使用100個不同種子;訓練實驗則在模塊化加法任務上訓練網絡,並在檢查點計算體積。

初始化實驗未能復現NRS的發現:他們未觀察到更高權重幅度或更多層數導致體積降低(根據盆地體積假設,這對應更復雜解)。訓練實驗同樣未發現體積是學習行為的好預測器:雖然訓練普遍降低體積,但具有相似局部體積的架構(如ReLU和GELU)表現出不同學習行為(更多GELU出現了“頓悟”現象)。最終體積與網絡學習行為似乎沒有良好相關性。

結論指出,歸納偏差確實重要,但試圖通過一維複雜度度量(如局部體積)捕捉其全貌可能不現實。作者表示將繼續探索參數-函數映射與損失景觀的幾何描述,但需尋找局部體積之外的度量方式。