2026-06-09站内改写1 分钟阅读更新: 2026-06-09

视觉Transformer对抗性微调的机制分析

麻省理工学院的研究人员分析了对抗性微调对视觉Transformer（ViT）在图像扰动下鲁棒性的影响。他们发现，针对特定类型的图像退化（如低频和高频干扰）进行微调，确实能提升模型在该类退化上的表现和置信度，但无法泛化到未见过的退化类型。尽管模型各层的视觉注意力和知识演化发生了变化，但对抗性训练并未根本改变ViT学习到的稀疏表示。

来源arXiv Computer Vision作者: Hannah Gao (Massachusetts Institute of Technology), Isha Agarwal (Massachusetts Institute of Technology), Dylan Hadfield-Menell (Massachusetts Institute of Technology), Rachel Ma (Massachusetts Institute of Technology)

视觉Transformer（ViT）在当今众多多模态模型中占据核心地位，例如视觉语言模型（VLM）和视觉-语言-行动（VLA）模型，然而，这些模型在面对输入图像中的轻微扰动（如模糊、锐化）时的鲁棒性尚未得到充分研究。来自麻省理工学院（MIT）的研究人员Hannah Gao等人近日发布了一项研究，通过机制分析的方法，系统探索了对抗性微调对ViT性能的影响。该研究针对图像分类模型在高风险现实场景中的应用需求，采用对抗性训练策略，分别使用低频率和高频率的图像损坏（corruption）对ViT进行微调。在训练完成后，研究人员通过考察模型的注意力机制、内部表示以及知识演化，试图解释模型在扰动图像和正常图像上的性能变化。实验结果表明，在常见的图像损坏上进行微调确实能够显著提升ViT在这些特定损坏上的分类准确率和置信度，但这种提升仅限于训练过程中见过的损坏类型，而无法泛化到其他未见过的损坏类别。进一步的分析显示，尽管在不同层之间观察到视觉注意力和知识演化的变化，但对抗性训练并未从根本上改变ViT所学习的稀疏表示。这一发现意味着，通过对抗性微调获得的鲁棒性具有高度的特异性和局限性。该研究不仅揭示了当前对抗性训练方法的不足，也为未来开发更通用的鲁棒性增强技术提供了重要指导。同时，该工作为深入理解Transformer架构在视觉任务中的鲁棒性机制开辟了新的视角。