2026-06-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-26 16:10 UTC+8

通過可微搜索在視覺基礎模型中實現層特定提示融合發現

本文提出一種基於可微架構搜索的方法，用於自動發現視覺提示微調中圖像標記與提示標記的最佳融合方案。該方法將學習提示及其融合方式聯合優化，並引入仿射變換和交叉注意力兩種新融合機制。在34個數據集上的實驗表明，該方法在準確率、延遲和參數數量之間實現了良好的權衡，並揭示了混合融合方式能更有效地利用Transformer的層語義。

來源arXiv Computer Vision作者: Xi Xiao, Xingjian Li, Yunbei Zhang, Cheng Han, Tianming Liu, Tianyang Wang, Runmin Jiang, Jihun Hamm, Xiao Wang, Min Xu

視覺提示微調（Visual Prompt Tuning）已成為適配大規模視覺Transformer（ViT）到下游任務的參數高效微調方法。在此類方法中，可學習的提示被應用於輸入和特徵空間，然後與圖像標記一起通過Transformer層的注意力機制。最常見的融合圖像標記和提示標記的方式是拼接或相加。然而，一個基本但重要的問題仍未解決：單一融合方案是否總是最優？混合融合方案是否能帶來更好的性能？

針對這一問題，本文作者將任務建模為雙層優化問題，並利用可微架構搜索（DARTS）進行求解。在該框架中，可學習的提示及其融合方案被聯合優化。為了豐富搜索空間，作者在傳統的拼接和相加基礎上，提出了兩種新的融合方案：仿射變換和交叉注意力。仿射變換通過可學習的權重和偏置調整提示表示，而交叉注意力則使提示和圖像標記之間能夠進行更復雜的交互。

通過在VTAB-1k、FGVC和HTA等34個數據集上的廣泛實驗，該方法在視覺提示微調任務中取得了持續的性能提升。與VPT-Deep及最近的其他變體相比，該方法在保持凍結ViT主幹的情況下，在準確率、推理延遲和參數數量之間實現了更優的權衡。實驗結果強有力地表明，提示與圖像標記的融合方式對視覺提示微調的性能具有重要影響，而混合融合方式能夠更有效地利用ViT不同層的語義信息，從而提出了一種新的研究視角。相關論文已被ECCV 2026接收。

此外，作者還進行了消融研究和可視化分析，進一步驗證了所提融合方案的有效性。例如，他們發現對於不同深度的Transformer層，最佳的融合方案可能不同，這揭示了層特定提示融合的重要性。這項工作不僅為視覺提示微調提供了實用方法，也為未來研究探索更復雜的提示與圖像交互機制開闢了道路。