AI News HubLIVE
站内改写2 分鐘閱讀

輸出層正則化消除單GPU VLA微調中的種子彩票問題

研究發現,在單GPU上微調視覺-語言-動作模型(VLA-JEPA)時,存在“種子彩票”問題:相同代碼不同隨機種子導致一個種子模型性能從91-94%驟降至65.2%,且無任何警告。原因在於輸出坍塌——動作預測器輸出幾乎與輸入無關。傳統權重級正則化(如L2、EWC)無法檢測此問題,而輸出級正則化(VICReg、Dropout、半學習率)可完全消除災難性種子。最簡單方法是修改優化器配置中的一個數字。

來源arXiv Robotics作者: Jeffrin Sam, Dzmitry Tsetserukou

在單GPU上微調視覺-語言-動作模型(VLA-JEPA)看似簡單:加載預訓練檢查點,運行訓練,部署。然而,一項最新研究揭示了一個隱藏的危險——種子彩票。研究人員發現,使用相同的代碼和數據集,僅改變隨機種子,運行13次微調,其中12次模型成功率達到91%至94%,但有一次性能悄然降至65.2%,差距高達29個百分點。更嚴重的是,整個過程沒有任何錯誤提示或警告,也無法預測哪個種子會導致失敗。

論文將這一現象稱為“種子彩票”,並追溯其根源為“輸出坍塌”。動作預測器逐漸學習到幾乎與機器人所感知的視覺輸入無關的輸出,這意味着無論輸入如何變化,輸出都趨於相同。傳統的權重級正則化方法,如L2正則化和彈性權重鞏固(EWC),對這類坍塌無能為力。研究者通過雅可比零空間的形式化分析表明,權重級方法只能懲罰權重的變化,但坍塌發生在權重可以自由移動而不影響輸出的方向上。

為了驗證這一假設,團隊在7種方法、最多13個種子、3個LIBERO基準測試上進行了實驗。結果令人振奮:三種輸出級正則化器——VICReg(12個種子)、Dropout(4個種子)以及減半學習率(5個種子)——全部消除了每一個災難性種子。相比之下,權重級方法(L2和EWC)則保留了彩票現象。統計檢驗(F(12,11)=28.7, p<0.001)進一步支持了輸出級正則化的有效性。

論文指出,最簡單的修復方法甚至不需要修改模型架構或增加複雜的代碼:只需在優化器配置中更改一個數字——例如將學習率減半——即可避免種子彩票。這一發現對於資源受限的實驗室尤為重要,因為它們通常依賴於單GPU微調。論文強調,輸出級正則化簡潔而有效,值得從業者重視。此外,研究者還建議在微調過程中加入VICReg或Dropout作為默認配置,以從根本上防止輸出坍塌。這些方法不僅消除了種子彩票,還可能提升模型在未見場景下的泛化能力。總之,輸出級正則化為單GPU VLA微調提供了一種可靠且易於實施的解決方案,有望成為未來相關研究的標準實踐。