2026-06-03 07:27 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

大語言模型並非你所認為的黑箱

Anthropic 的《大型語言模型的生物學》（2025）是機械可解釋性領域的里程碑。通過電路追蹤等技術，研究人員能夠揭示模型內部的多步推理過程，發現它們使用人類可理解的概念（如“德克薩斯”）進行類符號推理。這項工作有助於識別模型錯誤、引導行為，甚至設計更好的學習算法。

來源Hacker News AI作者: _jayhack_

Anthropic 在2025年發表的論文《大型語言模型的生物學》是機械可解釋性領域的一項里程碑式研究。長期以來，神經網絡被普遍視為難以理解的“黑箱”，但這項研究通過創新的電路追蹤技術，成功逆向工程了模型內部的複雜計算過程。

研究人員面臨的核心挑戰是“疊加”現象：單個神經元往往參與多個無關的概念，而任何一個概念又分散在眾多神經元中。傳統方法無法從單一的神經元激活中直接解讀含義。為此，Anthropic開發了一種電路追蹤技術：訓練一個“替代模型”來稀疏地重建基礎模型MLP層的輸出，從而將模型的激活分解為一組稀疏特徵。令人驚訝的是，這些特徵恰好對應人類能夠輕鬆識別的高層概念，例如“德克薩斯”或“奧運會”。

一旦獲得了這些可解釋的特徵，研究人員就可以通過追蹤它們在模型前向傳播過程中的相互作用，將它們按因果關係聚類，從而構建出計算過程的“接線圖”。當詢問模型“達拉斯所在州的州府是什麼”時，可以觀察到一系列有序的特徵激活：首先“達拉斯”特徵被激活，接着引發“德克薩斯”特徵，最後激活“奧斯汀”特徵。這清晰地表明，模型確實在進行多步符號推理，類似於哲學家所説的“高階推理”。

有趣的是，這種現象並不侷限於大型語言模型。DeepMind在2022年的研究顯示，基於蒙特卡洛樹搜索的系統AlphaZero也自主學會了與人類國際象棋概念（如“被將軍”和“牽制”）對應的中間表示，而且完全沒有接受任何人類棋類知識的輸入。

理解模型的內部推理過程還能幫助設計更好的學習算法。例如，Anthropic發現Claude 3.5 Haiku學習了一種獨特的整數加法算法：它並非像人類那樣進行心算，而是將問題拆分為多個並行的路徑——同時計算粗略的數量級和精確的個位數——然後結合記憶中的“查找表”特徵進行重組。這引發了一個自然的問題：我們能否識別這些內部模式，然後“引導”模型採用更優的算法？

值得注意的是，模型本身對其內部思維過程並不具備元認知能力。當要求模型解釋它如何計算加法時，它會敍述一套整潔的、符合人類習慣的步驟，但這與實際運行的算法並不一致。這種“下意識”的存在恰恰為可解釋性研究提供了切入點。

機械可解釋性的進展具有重大意義。它不僅可以用於識別模型的不良行為、引導模型輸出，還能幫助設計更好的學習算法。與十年前機器學習教授們的普遍看法相反，如今我們在某些方面已經從模型中獲得了前所未有的深刻洞察。這篇論文的詳細內容可參見Anthropic官網，而相關討論則在X平台上引發廣泛關注。