视觉Transformer对抗性微调的机制分析
麻省理工学院的研究人员分析了对抗性微调对视觉Transformer(ViT)在图像扰动下鲁棒性的影响。他们发现,针对特定类型的图像退化(如低频和高频干扰)进行微调,确实能提升模型在该类退化上的表现和置信度,但无法泛化到未见过的退化类型。尽管模型各层的视觉注意力和知识演化发生了变化,但对抗性训练并未根本改变ViT学习到的稀疏表示。
来源arXiv Computer Vision作者: Hannah Gao (Massachusetts Institute of Technology), Isha Agarwal (Massachusetts Institute of Technology), Dylan Hadfield-Menell (Massachusetts Institute of Technology), Rachel Ma (Massachusetts Institute of Technology)
视觉Transformer(ViT)在当今众多多模态模型中占据核心地位,例如视觉语言模型(VLM)和视觉-语言-行动(VLA)模型,然而,这些模型在面对输入图像中的轻微扰动(如模糊、锐化)时的鲁棒性尚未得到充分研究。来自麻省理工学院(MIT)的研究人员Hannah Gao等人近日发布了一项研究,通过机制分析的方法,系统探索了对抗性微调对ViT性能的影响。该研究针对图像分类模型在高风险现实场景中的应用需求,采用对抗性训练策略,分别使用低频率和高频率的图像损坏(corruption)对ViT进行微调。在训练完成后,研究人员通过考察模型的注意力机制、内部表示以及知识演化,试图解释模型在扰动图像和正常图像上的性能变化。实验结果表明,在常见的图像损坏上进行微调确实能够显著提升ViT在这些特定损坏上的分类准确率和置信度,但这种提升仅限于训练过程中见过的损坏类型,而无法泛化到其他未见过的损坏类别。进一步的分析显示,尽管在不同层之间观察到视觉注意力和知识演化的变化,但对抗性训练并未从根本上改变ViT所学习的稀疏表示。这一发现意味着,通过对抗性微调获得的鲁棒性具有高度的特异性和局限性。该研究不仅揭示了当前对抗性训练方法的不足,也为未来开发更通用的鲁棒性增强技术提供了重要指导。同时,该工作为深入理解Transformer架构在视觉任务中的鲁棒性机制开辟了新的视角。