ビジョントランスフォーマーの敵対的ファインチューニングのメカニズム分析
MITの研究者らは、画像摂動に対するロバスト性を向上させるため、ビジョントランスフォーマー(ViT)の敵対的ファインチューニングを分析した。特定の劣化(低周波・高周波)でファインチューニングすると、その劣化に対する性能は向上するが、未学習のタイプには一般化しないことを発見した。注意機構や知識の進化に変化が見られたものの、スパース表現は不変であった。
ビジョントランスフォーマー(ViT)は、近年、視覚言語モデル(VLM)や視覚言語行動(VLA)モデルといったマルチモーダルモデルの基盤として広く利用されているが、入力画像のわずかな摂動(ぼかしやシャープ化など)に対するロバスト性については十分に研究されていない。マサチューセッツ工科大学(MIT)のHannah Gaoらの研究チームは、メカニズム分析の手法を用いて、敵対的ファインチューニングがViTの性能に与える影響を体系的に調査した。この研究は、高リスクな実世界の状況での画像分類モデルの利用を念頭に置き、低周波および高周波の画像劣化に対して敵対的訓練を施し、注意機構、内部表現、知識の進化を詳細に分析した。その結果、一般的な劣化に対するファインチューニングは、訓練で見られた劣化に対する性能と確信度を向上させるが、その改善は訓練で見られなかった他のクラスの劣化には転移しないことが明らかになった。さらに、層ごとに視覚的注意や知識の進化に変化が見られたにもかかわらず、敵対的訓練はViTが学習するスパース表現を根本的に変えることはなかった。この知見は、敵対的ファインチューニングによるロバスト性の向上が限定的であり、特定の劣化にのみ有効であることを示している。本研究は、現在の敵対的訓練手法の限界を明らかにするとともに、より汎用的なロバスト性向上技術の開発に向けた重要な洞察を提供している。また、トランスフォーマーアーキテクチャのロバスト性メカニズムの理解を深める新たな視点をもたらしている。