通過可微搜索在視覺基礎模型中實現層特定提示融合發現
本文提出一種基於可微架構搜索的方法,用於自動發現視覺提示微調中圖像標記與提示標記的最佳融合方案。該方法將學習提示及其融合方式聯合優化,並引入仿射變換和交叉注意力兩種新融合機制。在34個數據集上的實驗表明,該方法在準確率、延遲和參數數量之間實現了良好的權衡,並揭示了混合融合方式能更有效地利用Transformer的層語義。
視覺提示微調(Visual Prompt Tuning)已成為適配大規模視覺Transformer(ViT)到下游任務的參數高效微調方法。在此類方法中,可學習的提示被應用於輸入和特徵空間,然後與圖像標記一起通過Transformer層的注意力機制。最常見的融合圖像標記和提示標記的方式是拼接或相加。然而,一個基本但重要的問題仍未解決:單一融合方案是否總是最優?混合融合方案是否能帶來更好的性能?
針對這一問題,本文作者將任務建模為雙層優化問題,並利用可微架構搜索(DARTS)進行求解。在該框架中,可學習的提示及其融合方案被聯合優化。為了豐富搜索空間,作者在傳統的拼接和相加基礎上,提出了兩種新的融合方案:仿射變換和交叉注意力。仿射變換通過可學習的權重和偏置調整提示表示,而交叉注意力則使提示和圖像標記之間能夠進行更復雜的交互。
通過在VTAB-1k、FGVC和HTA等34個數據集上的廣泛實驗,該方法在視覺提示微調任務中取得了持續的性能提升。與VPT-Deep及最近的其他變體相比,該方法在保持凍結ViT主幹的情況下,在準確率、推理延遲和參數數量之間實現了更優的權衡。實驗結果強有力地表明,提示與圖像標記的融合方式對視覺提示微調的性能具有重要影響,而混合融合方式能夠更有效地利用ViT不同層的語義信息,從而提出了一種新的研究視角。相關論文已被ECCV 2026接收。
此外,作者還進行了消融研究和可視化分析,進一步驗證了所提融合方案的有效性。例如,他們發現對於不同深度的Transformer層,最佳的融合方案可能不同,這揭示了層特定提示融合的重要性。這項工作不僅為視覺提示微調提供了實用方法,也為未來研究探索更復雜的提示與圖像交互機制開闢了道路。