通过可微搜索在视觉基础模型中实现层特定提示融合发现
本文提出一种基于可微架构搜索的方法,用于自动发现视觉提示微调中图像标记与提示标记的最佳融合方案。该方法将学习提示及其融合方式联合优化,并引入仿射变换和交叉注意力两种新融合机制。在34个数据集上的实验表明,该方法在准确率、延迟和参数数量之间实现了良好的权衡,并揭示了混合融合方式能更有效地利用Transformer的层语义。
视觉提示微调(Visual Prompt Tuning)已成为适配大规模视觉Transformer(ViT)到下游任务的参数高效微调方法。在此类方法中,可学习的提示被应用于输入和特征空间,然后与图像标记一起通过Transformer层的注意力机制。最常见的融合图像标记和提示标记的方式是拼接或相加。然而,一个基本但重要的问题仍未解决:单一融合方案是否总是最优?混合融合方案是否能带来更好的性能?
针对这一问题,本文作者将任务建模为双层优化问题,并利用可微架构搜索(DARTS)进行求解。在该框架中,可学习的提示及其融合方案被联合优化。为了丰富搜索空间,作者在传统的拼接和相加基础上,提出了两种新的融合方案:仿射变换和交叉注意力。仿射变换通过可学习的权重和偏置调整提示表示,而交叉注意力则使提示和图像标记之间能够进行更复杂的交互。
通过在VTAB-1k、FGVC和HTA等34个数据集上的广泛实验,该方法在视觉提示微调任务中取得了持续的性能提升。与VPT-Deep及最近的其他变体相比,该方法在保持冻结ViT主干的情况下,在准确率、推理延迟和参数数量之间实现了更优的权衡。实验结果强有力地表明,提示与图像标记的融合方式对视觉提示微调的性能具有重要影响,而混合融合方式能够更有效地利用ViT不同层的语义信息,从而提出了一种新的研究视角。相关论文已被ECCV 2026接收。
此外,作者还进行了消融研究和可视化分析,进一步验证了所提融合方案的有效性。例如,他们发现对于不同深度的Transformer层,最佳的融合方案可能不同,这揭示了层特定提示融合的重要性。这项工作不仅为视觉提示微调提供了实用方法,也为未来研究探索更复杂的提示与图像交互机制开辟了道路。