LEAP:通过自适应渐进实现视觉Transformer蒸馏中的层跳过效率
LEAP是一种针对视觉Transformer(ViT)特征知识蒸馏的训练课程,通过将教师的中间特征图作为逐步困难的序列目标,让学生先构建基础表示再处理高层抽象。实验表明,该方法在ImageNet-100上ViT-S达到90.1%准确率,提升12.24%,并在ImageNet-1K上实例检索任务提升3.84%和7.75%,同时节省25.1%的训练FLOPs和21%的训练时间。
视觉基础模型(VFM)以Vision Transformer(ViT)为骨干,如DINOv2,已成为目标识别和语义分割等下游任务的关键。然而,其巨大的计算需求通常需要蒸馏到更小的架构中才能部署在边缘设备上。基于特征的知识蒸馏(KD)常受限于师生差距:由于学生容量有限,难以模仿教师复杂的特征图。为缓解这一瓶颈,研究者提出了LEAP(Layer-skipping Efficiency via Adaptive Progression),一种用于ViT特征知识蒸馏的训练课程。
LEAP的核心思想是将教师的中间特征图用作一系列逐步困难的训练目标。这种课程设计允许学生先构建基础表示,再逐步处理更高层次的抽象。与传统的直接匹配最终输出不同,LEAP通过自适应难度选择,根据学生当前能力动态调整目标层的深度,从而在训练初期避免过高的学习压力。实验结果显示,这一范式在不同学生模型规模和数据集尺度上显著加速了收敛。采用LEAP课程训练后,ViT-S在ImageNet-100上达到90.1%的准确率,相比基准提升12.24%。在ImageNet-1K上,针对牛津和巴黎数据集的实例检索任务,LEAP分别取得了3.84%和7.75%的提升。
此外,该课程在ImageNet-100训练初期通过实现教师推理的早停,节省了25.1%的训练FLOPs和21%的训练时间。早期训练阶段,学生只需模仿较浅层特征,因此教师无需运行完整的前向传播,从而显著降低了计算开销。研究团队已在GitHub上公开代码(https://github.com/KevinZ0217/LEAP),以促进该方法的复现和进一步研究。这一工作为ViT的高效部署提供了一种实用的蒸馏策略,尤其适合资源受限的边缘计算场景。