視覚の内部:神経科学に触発された概念回路によるVision Transformerの解釈と制御
ViSAEは、神経科学に着想を得た概念回路を用いてVision Transformer(ViT)を解釈・制御するツールボックスであり、解釈可能性と最悪グループ精度を大幅に向上させます。
Vision Transformer(ViT)は画像分類タスクで高い精度を達成しているが、背景やテクスチャなどの偽の相関に影響されやすく、安全な展開のためには内部メカニズムの理解が不可欠である。スパースオートエンコーダ(SAE)はモデル表現を人間が解釈可能な概念に分解する有望な手法だが、ViTへの適用には概念カバレッジの制限や主観的な特徴解釈といった課題があった。
これらのギャップを埋めるため、神経科学の原理に動機づけられた機械的解釈可能性ツールボックス「ViSAE」が提案された。ViSAEは3つのコンポーネントから構成される。第1に、64,000枚の画像と16,000の視覚的概念語彙からなる大規模プロービングスイートであり、ImageNetと比較して20倍の概念カバレッジ効率、既存の概念セットと比較して28.7%の解釈精度向上を達成する。第2に、トップダウンの概念読み取りアルゴリズムとボトムアップの回路追跡アルゴリズムにより、概念回路を介してViTの内部動作を自動的に回復する。第3に、ViTの行動を監査・制御する応用機能を提供する。
概念的編集により、ViSAEはWaterBirdsデータセットの最悪グループ精度を48.2%改善し、既存手法を23.8%上回った。この成果は、深層ニューラルネットワークの内部表現の理解とバイアス修正のための新たな道を開くものである。本論文はICML 2026で採択され(採択率26.6%)、データとコードはGitHub(https://github.com/deep-real/ViSAE)で公開されている。