2026-06-19站内改写1 分鐘閱讀更新: 2026-06-19

LEAP：透過自適應漸進實現視覺Transformer蒸餾中的層跳過效率

LEAP是一種針對視覺Transformer（ViT）特徵知識蒸餾的訓練課程，透過將教師的中間特徵圖作為逐步困難的序列目標，讓學生先構建基礎表示再處理高層抽象。實驗表明，該方法在ImageNet-100上ViT-S達到90.1%準確率，提升12.24%，並在ImageNet-1K上例項檢索任務提升3.84%和7.75%，同時節省25.1%的訓練FLOPs和21%的訓練時間。

來源arXiv Computer Vision作者: Jiaqi Zhang, Ashton Lee, Anthony Wong, John Zou, Sami BuGhanem, Randall Balestriero

視覺基礎模型（VFM）以Vision Transformer（ViT）為骨幹，如DINOv2，已成為目標識別和語義分割等下游任務的關鍵。然而，其巨大的計算需求通常需要蒸餾到更小的架構中才能部署在邊緣裝置上。基於特徵的知識蒸餾（KD）常受限於師生差距：由於學生容量有限，難以模仿教師複雜的特徵圖。為緩解這一瓶頸，研究者提出了LEAP（Layer-skipping Efficiency via Adaptive Progression），一種用於ViT特徵知識蒸餾的訓練課程。

LEAP的核心思想是將教師的中間特徵圖用作一系列逐步困難的訓練目標。這種課程設計允許學生先構建基礎表示，再逐步處理更高層次的抽象。與傳統的直接匹配最終輸出不同，LEAP透過自適應難度選擇，根據學生當前能力動態調整目標層的深度，從而在訓練初期避免過高的學習壓力。實驗結果顯示，這一正規化在不同學生模型規模和資料集尺度上顯著加速了收斂。採用LEAP課程訓練後，ViT-S在ImageNet-100上達到90.1%的準確率，相比基準提升12.24%。在ImageNet-1K上，針對牛津和巴黎資料集的例項檢索任務，LEAP分別取得了3.84%和7.75%的提升。

此外，該課程在ImageNet-100訓練初期透過實現教師推理的早停，節省了25.1%的訓練FLOPs和21%的訓練時間。早期訓練階段，學生只需模仿較淺層特徵，因此教師無需執行完整的前向傳播，從而顯著降低了計算開銷。研究團隊已在GitHub上公開程式碼（https://github.com/KevinZ0217/LEAP），以促進該方法的復現和進一步研究。這一工作為ViT的高效部署提供了一種實用的蒸餾策略，尤其適合資源受限的邊緣計算場景。