Sequence AI 今週の第859号:Claudeの心を英語で読む——自然言語オートエンコーダについてのノート
Anthropicの新しい自然言語オートエンコーダにより、研究者はLLMの活性化に対する直接的な英語の説明を得ることができ、解釈可能性における重要な一歩となります。
解釈可能性の研究には、願望と困惑の間にある繰り返しの幻想があります。研究者は残差ストリームの活性化(12,000もの浮動小数点数)をじっと見つめ、平易な英語で「何を考えている?」と尋ねたいと思っています。スパースオートエンコーダは、上位活性化例を検査することでラベル付けする必要のある何千ものスパース潜在変数を提供します。アトリビューショングラフは、研究者が午後をかけて解析する広大な図を生成します。プローブはイエス/ノーを返します。どれも有用ですが、どれも実際に「話しかけ返す」ことはありません。
Anthropicの新しい論文「自然言語オートエンコーダによるLLM活性化の教師なし説明の生成」は、久しぶりに活性化が話しかけ返す解釈可能性アーティファクトです。文字通りです。NLAをClaude Opus 4.6のトランスクリプト内のトークンに向けると、モデルが何を考えているかを説明する英語の箇条書きがいくつか生成されます。それが成果物です。論文は主に、その説明を信じるべきかどうかの調査です。
この技術の本質は、人間によるラベル付けや複雑な後処理を必要とせず、モデル自身に自然言語で「自己申告」させる点にあります。正確性の検証は今後の課題ですが、NLAは確かにAI解釈可能性に新たな道を開きます——機械が人間に理解可能な言葉で語りかけることを可能にするのです。