2026-06-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-26 16:10 UTC+8

通过可微搜索在视觉基础模型中实现层特定提示融合发现

本文提出一种基于可微架构搜索的方法，用于自动发现视觉提示微调中图像标记与提示标记的最佳融合方案。该方法将学习提示及其融合方式联合优化，并引入仿射变换和交叉注意力两种新融合机制。在34个数据集上的实验表明，该方法在准确率、延迟和参数数量之间实现了良好的权衡，并揭示了混合融合方式能更有效地利用Transformer的层语义。

来源arXiv Computer Vision作者: Xi Xiao, Xingjian Li, Yunbei Zhang, Cheng Han, Tianming Liu, Tianyang Wang, Runmin Jiang, Jihun Hamm, Xiao Wang, Min Xu

视觉提示微调（Visual Prompt Tuning）已成为适配大规模视觉Transformer（ViT）到下游任务的参数高效微调方法。在此类方法中，可学习的提示被应用于输入和特征空间，然后与图像标记一起通过Transformer层的注意力机制。最常见的融合图像标记和提示标记的方式是拼接或相加。然而，一个基本但重要的问题仍未解决：单一融合方案是否总是最优？混合融合方案是否能带来更好的性能？

针对这一问题，本文作者将任务建模为双层优化问题，并利用可微架构搜索（DARTS）进行求解。在该框架中，可学习的提示及其融合方案被联合优化。为了丰富搜索空间，作者在传统的拼接和相加基础上，提出了两种新的融合方案：仿射变换和交叉注意力。仿射变换通过可学习的权重和偏置调整提示表示，而交叉注意力则使提示和图像标记之间能够进行更复杂的交互。

通过在VTAB-1k、FGVC和HTA等34个数据集上的广泛实验，该方法在视觉提示微调任务中取得了持续的性能提升。与VPT-Deep及最近的其他变体相比，该方法在保持冻结ViT主干的情况下，在准确率、推理延迟和参数数量之间实现了更优的权衡。实验结果强有力地表明，提示与图像标记的融合方式对视觉提示微调的性能具有重要影响，而混合融合方式能够更有效地利用ViT不同层的语义信息，从而提出了一种新的研究视角。相关论文已被ECCV 2026接收。

此外，作者还进行了消融研究和可视化分析，进一步验证了所提融合方案的有效性。例如，他们发现对于不同深度的Transformer层，最佳的融合方案可能不同，这揭示了层特定提示融合的重要性。这项工作不仅为视觉提示微调提供了实用方法，也为未来研究探索更复杂的提示与图像交互机制开辟了道路。