2026-06-15站内改写2 分钟阅读更新: 2026-06-15

输出层正则化消除单GPU VLA微调中的种子彩票问题

研究发现，在单GPU上微调视觉-语言-动作模型（VLA-JEPA）时，存在“种子彩票”问题：相同代码不同随机种子导致一个种子模型性能从91-94%骤降至65.2%，且无任何警告。原因在于输出坍塌——动作预测器输出几乎与输入无关。传统权重级正则化（如L2、EWC）无法检测此问题，而输出级正则化（VICReg、Dropout、半学习率）可完全消除灾难性种子。最简单方法是修改优化器配置中的一个数字。

来源arXiv Robotics作者: Jeffrin Sam, Dzmitry Tsetserukou

在单GPU上微调视觉-语言-动作模型（VLA-JEPA）看似简单：加载预训练检查点，运行训练，部署。然而，一项最新研究揭示了一个隐藏的危险——种子彩票。研究人员发现，使用相同的代码和数据集，仅改变随机种子，运行13次微调，其中12次模型成功率达到91%至94%，但有一次性能悄然降至65.2%，差距高达29个百分点。更严重的是，整个过程没有任何错误提示或警告，也无法预测哪个种子会导致失败。

论文将这一现象称为“种子彩票”，并追溯其根源为“输出坍塌”。动作预测器逐渐学习到几乎与机器人所感知的视觉输入无关的输出，这意味着无论输入如何变化，输出都趋于相同。传统的权重级正则化方法，如L2正则化和弹性权重巩固（EWC），对这类坍塌无能为力。研究者通过雅可比零空间的形式化分析表明，权重级方法只能惩罚权重的变化，但坍塌发生在权重可以自由移动而不影响输出的方向上。

为了验证这一假设，团队在7种方法、最多13个种子、3个LIBERO基准测试上进行了实验。结果令人振奋：三种输出级正则化器——VICReg（12个种子）、Dropout（4个种子）以及减半学习率（5个种子）——全部消除了每一个灾难性种子。相比之下，权重级方法（L2和EWC）则保留了彩票现象。统计检验（F(12,11)=28.7, p<0.001）进一步支持了输出级正则化的有效性。

论文指出，最简单的修复方法甚至不需要修改模型架构或增加复杂的代码：只需在优化器配置中更改一个数字——例如将学习率减半——即可避免种子彩票。这一发现对于资源受限的实验室尤为重要，因为它们通常依赖于单GPU微调。论文强调，输出级正则化简洁而有效，值得从业者重视。此外，研究者还建议在微调过程中加入VICReg或Dropout作为默认配置，以从根本上防止输出坍塌。这些方法不仅消除了种子彩票，还可能提升模型在未见场景下的泛化能力。总之，输出级正则化为单GPU VLA微调提供了一种可靠且易于实施的解决方案，有望成为未来相关研究的标准实践。