2026-05-13 19:50 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Sequence AI 本週第859期：用英語解讀Claude的思維——自然語言自編碼器簡介

Anthropic 的新型自然語言自編碼器讓研究人員能夠直接獲取LLM思維活動的英語描述，這是可解釋性研究的重要進展。

來源TheSequence作者: Jesus Rodriguez

在可解釋性研究中，一直存在着一個介於願望與尷尬之間的幻想：研究人員盯着殘差流中的一萬兩千個浮點數，想要用簡單的英語詢問模型“你在想什麼？”稀疏自編碼器通過激活示例標註的稀疏潛在變量提供答案，歸因圖則生成需要研究人員花費整個下午解析的龐大圖表，探針只能給出是或否的回答。這些方法各有用途，但都無法真正“對話”。

Anthropic 的最新論文《自然語言自編碼器：無監督生成LLM激活的解釋》首次實現了這種對話。研究人員將NLA指向Claude Opus 4.6轉錄中的某個詞元，它就能生成幾個英語要點，描述模型此刻的思考內容。這正是該方法的直接輸出。論文的核心在於探討這些解釋的可信度。

這一技術的本質在於，它不再需要人工標註或複雜的後處理，而是直接讓模型以自然語言“自報家門”。儘管仍需驗證其準確性，但NLA無疑為AI可解釋性開闢了全新路徑——讓機器用人類能理解的語言開口説話。