2026-05-13 19:50 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

Sequence AI 本周第859期：用英语解读Claude的思维——自然语言自编码器简介

Anthropic 的新型自然语言自编码器让研究人员能够直接获取LLM思维活动的英语描述，这是可解释性研究的重要进展。

来源TheSequence作者: Jesus Rodriguez

在可解释性研究中，一直存在着一个介于愿望与尴尬之间的幻想：研究人员盯着残差流中的一万两千个浮点数，想要用简单的英语询问模型“你在想什么？”稀疏自编码器通过激活示例标注的稀疏潜在变量提供答案，归因图则生成需要研究人员花费整个下午解析的庞大图表，探针只能给出是或否的回答。这些方法各有用途，但都无法真正“对话”。

Anthropic 的最新论文《自然语言自编码器：无监督生成LLM激活的解释》首次实现了这种对话。研究人员将NLA指向Claude Opus 4.6转录中的某个词元，它就能生成几个英语要点，描述模型此刻的思考内容。这正是该方法的直接输出。论文的核心在于探讨这些解释的可信度。

这一技术的本质在于，它不再需要人工标注或复杂的后处理，而是直接让模型以自然语言“自报家门”。尽管仍需验证其准确性，但NLA无疑为AI可解释性开辟了全新路径——让机器用人类能理解的语言开口说话。