Sequence AI 本週第859期:用英語解讀Claude的思維——自然語言自編碼器簡介
Anthropic 的新型自然語言自編碼器讓研究人員能夠直接獲取LLM思維活動的英語描述,這是可解釋性研究的重要進展。
在可解釋性研究中,一直存在着一個介於願望與尷尬之間的幻想:研究人員盯着殘差流中的一萬兩千個浮點數,想要用簡單的英語詢問模型“你在想什麼?”稀疏自編碼器通過激活示例標註的稀疏潛在變量提供答案,歸因圖則生成需要研究人員花費整個下午解析的龐大圖表,探針只能給出是或否的回答。這些方法各有用途,但都無法真正“對話”。
Anthropic 的最新論文《自然語言自編碼器:無監督生成LLM激活的解釋》首次實現了這種對話。研究人員將NLA指向Claude Opus 4.6轉錄中的某個詞元,它就能生成幾個英語要點,描述模型此刻的思考內容。這正是該方法的直接輸出。論文的核心在於探討這些解釋的可信度。
這一技術的本質在於,它不再需要人工標註或複雜的後處理,而是直接讓模型以自然語言“自報家門”。儘管仍需驗證其準確性,但NLA無疑為AI可解釋性開闢了全新路徑——讓機器用人類能理解的語言開口説話。