AI News HubLIVE
站内改写2 分で読了

出力層正則化による単一GPU VLAファインチューニングのシードロッタリー解消

単一GPUでの視覚-言語-行動モデル(VLA-JEPA)のファインチューニングにおいて、同じコードでも異なるランダムシードによって、12回は成功率91-94%であるのに対し、1回は65.2%に低下する「シードロッタリー」現象が発見された。原因は出力崩壊であり、行動予測器が入力に関わらずほぼ同じ出力を生成する。重みレベル正則化(L2、EWC)では検出できないが、出力レベル正則化(VICReg、ドロップアウト、学習率半減)で壊滅的なシードを完全に排除できる。最も簡単な対策はオプティマイザ設定の1つの数値を変更すること。

ソースarXiv Robotics著者: Jeffrin Sam, Dzmitry Tsetserukou

単一GPUでの視覚-言語-行動モデル(VLA-JEPA)のファインチューニングは、事前学習済みのチェックポイントを読み込み、トレーニングを実行し、デプロイするだけの簡単な作業に見える。しかし、ある新たな研究によって、隠れた危険性が明らかになった。「シードロッタリー」である。研究者らは、同一のコードとデータセットを用いて、ランダムシードのみを変えて13回のファインチューニングを実行したところ、12回は成功率91~94%を達成したが、1回だけ何の警告もなく65.2%に低下した。その差は29ポイントにも及び、エラーメッセージもなく、どのシードが失敗するか予測できない。

論文はこの現象を「シードロッタリー」と名付け、その原因を「出力崩壊」に特定した。行動予測器が、ロボットが見る視覚入力に関係なく、ほぼ同一の出力を生成するようになるのである。従来の重みレベル正則化手法(L2正則化やEWC)では、この崩壊を検出できない。研究者らはヤコビアン零空間を用いて、重みレベルの手法が重みの変化を罰する一方で、出力に影響を与えずに重みが自由に動ける方向で崩壊が生じることを形式化した。

この仮説を検証するため、7つの手法、最大13シード、3つのLIBEROベンチマークで実験を行った。結果は明瞭で、3つの出力レベル正則化器――VICReg(12シード)、ドロップアウト(4シード)、学習率半減(5シード)――はすべて、壊滅的なシードを完全に排除した。一方、重みレベルの手法(L2、EWC)ではロッタリーが維持された。統計検定(F(12,11)=28.7, p<0.001)も出力レベル正則化の有効性を支持している。

論文は、最も簡単な修正方法として、オプティマイザ設定の1つの数値を変更するだけ――例えば学習率を半減する――ことを挙げている。この発見は、リソースに制約のある研究室が単一GPUに依存する場合に特に重要である。出力レベル正則化は簡潔かつ効果的であり、実践者にとって価値のある手法であると結論づけられている。さらに、VICRegやドロップアウトをデフォルト設定として組み込むことで、出力崩壊を根本的に防ぎ、シードロッタリーのリスクを排除できると提案されている。これにより、モデルの汎化性能も向上する可能性がある。出力レベル正則化は、単一GPU VLAファインチューニングにおける信頼性の高い実践として広く採用されることが期待される。