Sequence AI 本周第859期:用英语解读Claude的思维——自然语言自编码器简介
Anthropic 的新型自然语言自编码器让研究人员能够直接获取LLM思维活动的英语描述,这是可解释性研究的重要进展。
在可解释性研究中,一直存在着一个介于愿望与尴尬之间的幻想:研究人员盯着残差流中的一万两千个浮点数,想要用简单的英语询问模型“你在想什么?”稀疏自编码器通过激活示例标注的稀疏潜在变量提供答案,归因图则生成需要研究人员花费整个下午解析的庞大图表,探针只能给出是或否的回答。这些方法各有用途,但都无法真正“对话”。
Anthropic 的最新论文《自然语言自编码器:无监督生成LLM激活的解释》首次实现了这种对话。研究人员将NLA指向Claude Opus 4.6转录中的某个词元,它就能生成几个英语要点,描述模型此刻的思考内容。这正是该方法的直接输出。论文的核心在于探讨这些解释的可信度。
这一技术的本质在于,它不再需要人工标注或复杂的后处理,而是直接让模型以自然语言“自报家门”。尽管仍需验证其准确性,但NLA无疑为AI可解释性开辟了全新路径——让机器用人类能理解的语言开口说话。