2026-06-15站内改写2 分鐘閱讀更新: 2026-06-15

輸出層正則化消除單GPU VLA微調中的種子彩票問題

研究發現，在單GPU上微調視覺-語言-動作模型（VLA-JEPA）時，存在“種子彩票”問題：相同代碼不同隨機種子導致一個種子模型性能從91-94%驟降至65.2%，且無任何警告。原因在於輸出坍塌——動作預測器輸出幾乎與輸入無關。傳統權重級正則化（如L2、EWC）無法檢測此問題，而輸出級正則化（VICReg、Dropout、半學習率）可完全消除災難性種子。最簡單方法是修改優化器配置中的一個數字。

來源arXiv Robotics作者: Jeffrin Sam, Dzmitry Tsetserukou

在單GPU上微調視覺-語言-動作模型（VLA-JEPA）看似簡單：加載預訓練檢查點，運行訓練，部署。然而，一項最新研究揭示了一個隱藏的危險——種子彩票。研究人員發現，使用相同的代碼和數據集，僅改變隨機種子，運行13次微調，其中12次模型成功率達到91%至94%，但有一次性能悄然降至65.2%，差距高達29個百分點。更嚴重的是，整個過程沒有任何錯誤提示或警告，也無法預測哪個種子會導致失敗。

論文將這一現象稱為“種子彩票”，並追溯其根源為“輸出坍塌”。動作預測器逐漸學習到幾乎與機器人所感知的視覺輸入無關的輸出，這意味着無論輸入如何變化，輸出都趨於相同。傳統的權重級正則化方法，如L2正則化和彈性權重鞏固（EWC），對這類坍塌無能為力。研究者通過雅可比零空間的形式化分析表明，權重級方法只能懲罰權重的變化，但坍塌發生在權重可以自由移動而不影響輸出的方向上。

為了驗證這一假設，團隊在7種方法、最多13個種子、3個LIBERO基準測試上進行了實驗。結果令人振奮：三種輸出級正則化器——VICReg（12個種子）、Dropout（4個種子）以及減半學習率（5個種子）——全部消除了每一個災難性種子。相比之下，權重級方法（L2和EWC）則保留了彩票現象。統計檢驗（F(12,11)=28.7, p<0.001）進一步支持了輸出級正則化的有效性。

論文指出，最簡單的修復方法甚至不需要修改模型架構或增加複雜的代碼：只需在優化器配置中更改一個數字——例如將學習率減半——即可避免種子彩票。這一發現對於資源受限的實驗室尤為重要，因為它們通常依賴於單GPU微調。論文強調，輸出級正則化簡潔而有效，值得從業者重視。此外，研究者還建議在微調過程中加入VICReg或Dropout作為默認配置，以從根本上防止輸出坍塌。這些方法不僅消除了種子彩票，還可能提升模型在未見場景下的泛化能力。總之，輸出級正則化為單GPU VLA微調提供了一種可靠且易於實施的解決方案，有望成為未來相關研究的標準實踐。