2026-06-19站内改写2 分で読了更新: 2026-06-19

LEAP: Vision Transformer蒸留における適応的進行によるレイヤースキップ効率化

LEAPは、Vision Transformer（ViT）の特徴ベース知識蒸留のためのトレーニングカリキュラムであり、教師の中間特徴マップを徐々に難しい目標として利用し、学生が高レベルの抽象化に取り組む前に基礎表現を構築できるようにします。実験では、ImageNet-100でViT-Sが90.1%の精度を達成し、12.24%の改善を示し、ImageNet-1Kのインスタンス検索タスクで3.84%と7.75%の改善、さらにトレーニングFLOPsと時間をそれぞれ25.1%と21%削減しました。

ソースarXiv Computer Vision著者: Jiaqi Zhang, Ashton Lee, Anthony Wong, John Zou, Sami BuGhanem, Randall Balestriero

DINOv2などのVision Transformer（ViT）バックボーンを備えた視覚基礎モデル（VFM）は、物体認識やセマンティックセグメンテーションなどの下流タスクに不可欠となっています。しかし、その膨大な計算要件により、エッジ展開にはより小さなアーキテクチャへの蒸留が必要になることがよくあります。特徴ベースの知識蒸留（KD）は、教師・生徒間のギャップに悩まされることが多く、生徒は容量が限られているために教師の複雑な特徴マップを模倣するのに苦労します。このボトルネックを軽減するために、研究者らはLEAP（Layer-skipping Efficiency via Adaptive Progression）を提案しました。これは、ViTの特徴ベース知識蒸留のためのトレーニングカリキュラムです。

LEAPの核となるアイデアは、教師の中間特徴マップを徐々に難しくなる一連の目標として利用することです。このカリキュラムにより、生徒は高レベルの抽象化に取り組む前に基礎表現を構築できます。従来の最終出力のみを直接一致させる方法とは異なり、LEAPは適応的な難易度選択を通じて、生徒の現在の能力に応じて目標層の深さを動的に調整し、訓練初期の過度な学習負荷を回避します。実験結果は、このパラダイムが適応的な難易度選択を通じて、さまざまな生徒モデルサイズやデータセットスケールで収束を大幅に加速することを示しています。LEAPカリキュラムで蒸留されたViT-Sは、ImageNet-100で90.1%の精度を達成し、ベースラインと比較して12.24%の改善を示しました。ImageNet-1Kでは、オックスフォードおよびパリデータセットのインスタンス検索タスクで、それぞれ3.84%と7.75%の改善を達成しました。

さらに、このカリキュラムはImageNet-100のトレーニング初期に教師推論の早期停止を実装することで、トレーニングFLOPsを25.1%、トレーニング時間を21%削減します。初期訓練段階では生徒は浅い層の特徴のみを模倣するため、教師は完全な順伝搬を実行する必要がなく、計算オーバーヘッドが大幅に削減されます。コードはGitHub（https://github.com/KevinZ0217/LEAP）で公開されており、再現性とさらなる研究が促進されています。この研究は、特にリソース制約のあるエッジコンピューティングシナリオにおいて、ViTの効率的な展開のための実用的な蒸留戦略を提供します。