2026-06-08 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

视觉心灵深处：神经科学启发的概念电路用于解释和引导视觉Transformer

ViSAE是一个基于神经科学原理的工具箱，通过概念电路解释和引导视觉Transformer（ViT），显著提升可解释性和最差组准确率。

来源arXiv Computer Vision作者: Tang Li, Yanlin Chen, Mengmeng Ma, Xi Peng

视觉Transformer（ViT）在图像分类等任务中表现优异，但其预测可能受到虚假相关性（如背景、纹理等）的驱动，导致模型泛化能力下降。为了安全部署，亟需理解ViT的决策机制并纠正其偏见。稀疏自编码器（SAE）通过将模型表示分解为稀疏的、人类可解释的概念，为模型解释提供了新思路。然而，直接将SAE应用于ViT时，存在概念覆盖范围有限、特征解释主观且难以规模化等问题。

针对这一挑战，研究者受神经科学原理启发，提出了ViSAE——一个用于理解ViT内部工作机制的机械可解释性工具箱。ViSAE包含三个核心组件：首先是一个大规模探测套件，包含64,000张图像和16,000个视觉基础概念词汇，其概念覆盖效率是ImageNet的20倍，解释准确率比现有概念集提升28.7%。其次是自上而下的概念读取算法和自下而上的电路追踪算法，能够自动通过概念电路恢复ViT内部的信息流动。最后，ViSAE还提供了审计和引导ViT行为的应用接口。

实验表明，通过概念编辑，ViSAE在WaterBirds数据集上将最差组准确率提升了48.2%，性能超过现有最优方法23.8%。这一成果为理解深度神经网络的内部表示和纠正偏见提供了有力工具。该论文已被ICML 2026接收（接收率26.6%），相关数据与代码已在GitHub（https://github.com/deep-real/ViSAE）公开。