AI News HubLIVE
站内改写1 分钟阅读

表征作为机制可解释性的瓶颈:显现单元协议

该论文提出显现单元协议,一种用于机制可解释性的结构化表示方案,将组件级分析输出组织成可查询、可复用的字段,并在多种模型上验证了其有效性。

来源arXiv Machine Learning作者: Hussein Chouman, Wataru Sasaki, Tomokazu Matsui, Hirohiko Suwa, Keiichi Yasumoto

机制可解释性研究已经积累了大量的组件级分析结果,这些结果详细描述了神经网络组件编码的内容及其相互作用方式。然而,这些分析产生的输出——例如选择性表、电路图和特征列表——往往被锁定在单个研究的笔记本中,无法组合使用,不能用自然语言查询,也无法直接用于下游的审计或干预。为了解决这一瓶颈,来自多个机构的研究团队提出了“显现单元协议”(Manifestation Unit Protocol),这是一种类型化的元组协议,旨在将组件级统计结果组织成结构化字段,并支持自动填充和混合检索。

该协议的核心是一个五元组(E, S, R, D, G),并针对Transformer架构扩展了注意力头原语(T)。其中,E代表期望(Expectation),S代表选择性(Selectivity),R代表响应(Response),D代表依赖性(Dependency),G代表通用性(Generality)。通过将每个组件的统计数据映射到这些字段,协议使得分析结果能够被高效查询和复用。

研究团队在生成式视觉模型(beta-VAE)、判别式视觉模型(CNN)和语言模型(GPT-2)上实例化了该协议,并取得了两项重要发现。首先,类型化结构在检索任务上大幅超越了非结构化基线。其次,通过该协议检索到的CNN过滤器在匹配预算控制下满足因果充分性和必要性条件。此外,该协议无需修改即可吸收注意力头原语,并在检索预算匹配的控制下成功恢复了已知的IOI电路成员。进一步的分析揭示了一个不可约的双字段核心(S+R),其余字段要么冗余,要么主动干扰。

研究团队强调,这项工作旨在为机制可解释性提供模式基础设施,而非进行前沿规模的验证。论文附有交互式演示,并已提交至arXiv(编号2607.00089),目前等待DOI注册。该协议有望解决机制可解释性领域长期存在的分析结果复用问题,为未来的研究提供标准化的表示框架。