AI News HubLIVE
站内改写1 分鐘閱讀

視覺心靈深處:神經科學啓發的概念電路用於解釋和引導視覺Transformer

ViSAE是一個基於神經科學原理的工具箱,通過概念電路解釋和引導視覺Transformer(ViT),顯著提升可解釋性和最差組準確率。

來源arXiv Computer Vision作者: Tang Li, Yanlin Chen, Mengmeng Ma, Xi Peng

視覺Transformer(ViT)在圖像分類等任務中表現優異,但其預測可能受到虛假相關性(如背景、紋理等)的驅動,導致模型泛化能力下降。為了安全部署,亟需理解ViT的決策機制並糾正其偏見。稀疏自編碼器(SAE)通過將模型表示分解為稀疏的、人類可解釋的概念,為模型解釋提供了新思路。然而,直接將SAE應用於ViT時,存在概念覆蓋範圍有限、特徵解釋主觀且難以規模化等問題。

針對這一挑戰,研究者受神經科學原理啓發,提出了ViSAE——一個用於理解ViT內部工作機制的機械可解釋性工具箱。ViSAE包含三個核心組件:首先是一個大規模探測套件,包含64,000張圖像和16,000個視覺基礎概念詞彙,其概念覆蓋效率是ImageNet的20倍,解釋準確率比現有概念集提升28.7%。其次是自上而下的概念讀取算法和自下而上的電路追蹤算法,能夠自動通過概念電路恢復ViT內部的信息流動。最後,ViSAE還提供了審計和引導ViT行為的應用接口。

實驗表明,通過概念編輯,ViSAE在WaterBirds數據集上將最差組準確率提升了48.2%,性能超過現有最優方法23.8%。這一成果為理解深度神經網絡的內部表示和糾正偏見提供了有力工具。該論文已被ICML 2026接收(接收率26.6%),相關數據與代碼已在GitHub(https://github.com/deep-real/ViSAE)公開。