AI News HubLIVE
站内改写2 分钟阅读

输出层正则化消除单GPU VLA微调中的种子彩票问题

研究发现,在单GPU上微调视觉-语言-动作模型(VLA-JEPA)时,存在“种子彩票”问题:相同代码不同随机种子导致一个种子模型性能从91-94%骤降至65.2%,且无任何警告。原因在于输出坍塌——动作预测器输出几乎与输入无关。传统权重级正则化(如L2、EWC)无法检测此问题,而输出级正则化(VICReg、Dropout、半学习率)可完全消除灾难性种子。最简单方法是修改优化器配置中的一个数字。

来源arXiv Robotics作者: Jeffrin Sam, Dzmitry Tsetserukou

在单GPU上微调视觉-语言-动作模型(VLA-JEPA)看似简单:加载预训练检查点,运行训练,部署。然而,一项最新研究揭示了一个隐藏的危险——种子彩票。研究人员发现,使用相同的代码和数据集,仅改变随机种子,运行13次微调,其中12次模型成功率达到91%至94%,但有一次性能悄然降至65.2%,差距高达29个百分点。更严重的是,整个过程没有任何错误提示或警告,也无法预测哪个种子会导致失败。

论文将这一现象称为“种子彩票”,并追溯其根源为“输出坍塌”。动作预测器逐渐学习到几乎与机器人所感知的视觉输入无关的输出,这意味着无论输入如何变化,输出都趋于相同。传统的权重级正则化方法,如L2正则化和弹性权重巩固(EWC),对这类坍塌无能为力。研究者通过雅可比零空间的形式化分析表明,权重级方法只能惩罚权重的变化,但坍塌发生在权重可以自由移动而不影响输出的方向上。

为了验证这一假设,团队在7种方法、最多13个种子、3个LIBERO基准测试上进行了实验。结果令人振奋:三种输出级正则化器——VICReg(12个种子)、Dropout(4个种子)以及减半学习率(5个种子)——全部消除了每一个灾难性种子。相比之下,权重级方法(L2和EWC)则保留了彩票现象。统计检验(F(12,11)=28.7, p<0.001)进一步支持了输出级正则化的有效性。

论文指出,最简单的修复方法甚至不需要修改模型架构或增加复杂的代码:只需在优化器配置中更改一个数字——例如将学习率减半——即可避免种子彩票。这一发现对于资源受限的实验室尤为重要,因为它们通常依赖于单GPU微调。论文强调,输出级正则化简洁而有效,值得从业者重视。此外,研究者还建议在微调过程中加入VICReg或Dropout作为默认配置,以从根本上防止输出坍塌。这些方法不仅消除了种子彩票,还可能提升模型在未见场景下的泛化能力。总之,输出级正则化为单GPU VLA微调提供了一种可靠且易于实施的解决方案,有望成为未来相关研究的标准实践。