AI News HubLIVE
站內改寫2 分鐘閱讀

透過區域性體積研究隨機網路的歸納偏差

本文利用星形域體積估計研究隨機神經網路的引數-函式對映的歸納偏差。實驗表明,區域性體積度量未能復現先前研究(神經紅移)的結果,且與學習行為相關性較弱,暗示單一複雜度度量可能不足以捕捉神經網路的歸納偏差。

神經網路泛化能力的關鍵在於其歸納偏差——即架構本身對特定任務的偏向性。為了深入理解這一特性,EleutherAI的研究人員Louis Jaburi和Nora Belrose透過星形域體積估計方法,分析了隨機網路在初始化時的引數-函式對映幾何結構。該工作建立在神經紅移(Neural Redshift, NRS)等前期研究基礎上。NRS假設流行架構對簡單函式存在歸納偏好,且複雜度隨訓練增加。但新研究透過區域性體積度量(源於EleutherAI之前的論文《隨機取樣訓練神經網路機率估計》)進行了驗證實驗。

研究者首先介紹了歸納偏差的重要性:給定固定架構,某些任務容易學習,而另一些可能需要指數級時間。他們希望瞭解不同架構能夠(或不能)解決哪些訓練任務,找到何種解,以及是否具有共享屬性,特別是與引數-函式對映幾何相關的屬性。更精確地說,他們希望初始化時的網路屬性已經決定了訓練過程中的網路屬性,從而能夠提前預測訓練後的網路。

引數-函式對映是連線權重空間與函式空間的橋樑。該對映是完全任務無關的,不考慮訓練分佈。為了比較函式,研究者選擇了平均KL散度作為度量,因為它既依賴於資料分佈又不依賴於標籤。在實驗中,他們嘗試了均勻分佈和基於訓練資料的分佈,未觀察到顯著差異。

區域性體積的概念基於盆地體積假設:引數空間中不同區域的體積比大致決定收斂到該區域的機率。研究者將每個區域定義為星形域——從初始點出發沿每個方向滿足成本函式閾值的點集。他們透過取樣隨機方向、計算半徑、進行高斯積分來估計體積。使用高斯積分而非簡單的半徑n次方是因為某些方向可能使成本函式不變導致無限體積。高斯測度使得體積可解釋為隨機取樣到訓練後網路的機率。

實驗設定涉及隨機神經網路,變化包括:額外層數(1-5層)、啟用函式(ReLU, GELU, Tanh, Sigmoid, Gaussian)和權重尺度(10^{-0.5}到10^{0.5}對數步長)。初始化採用PyTorch預設的均勻分佈。他們執行了兩類實驗:初始化實驗中計算不同架構下星形域的體積,每個設定使用100個不同種子;訓練實驗則在模組化加法任務上訓練網路,並在檢查點計算體積。

初始化實驗未能復現NRS的發現:他們未觀察到更高權重幅度或更多層數導致體積降低(根據盆地體積假設,這對應更復雜解)。訓練實驗同樣未發現體積是學習行為的好預測器:雖然訓練普遍降低體積,但具有相似區域性體積的架構(如ReLU和GELU)表現出不同學習行為(更多GELU出現了“頓悟”現象)。最終體積與網路學習行為似乎沒有良好相關性。

結論指出,歸納偏差確實重要,但試圖透過一維複雜度度量(如區域性體積)捕捉其全貌可能不現實。作者表示將繼續探索引數-函式對映與損失景觀的幾何描述,但需尋找區域性體積之外的度量方式。