AI News HubLIVE
站内改写2 分鐘閱讀

大語言模型並非你所認為的黑箱

Anthropic 的《大型語言模型的生物學》(2025)是機械可解釋性領域的里程碑。通過電路追蹤等技術,研究人員能夠揭示模型內部的多步推理過程,發現它們使用人類可理解的概念(如“德克薩斯”)進行類符號推理。這項工作有助於識別模型錯誤、引導行為,甚至設計更好的學習算法。

來源Hacker News AI作者: _jayhack_

Anthropic 在2025年發表的論文《大型語言模型的生物學》是機械可解釋性領域的一項里程碑式研究。長期以來,神經網絡被普遍視為難以理解的“黑箱”,但這項研究通過創新的電路追蹤技術,成功逆向工程了模型內部的複雜計算過程。

研究人員面臨的核心挑戰是“疊加”現象:單個神經元往往參與多個無關的概念,而任何一個概念又分散在眾多神經元中。傳統方法無法從單一的神經元激活中直接解讀含義。為此,Anthropic開發了一種電路追蹤技術:訓練一個“替代模型”來稀疏地重建基礎模型MLP層的輸出,從而將模型的激活分解為一組稀疏特徵。令人驚訝的是,這些特徵恰好對應人類能夠輕鬆識別的高層概念,例如“德克薩斯”或“奧運會”。

一旦獲得了這些可解釋的特徵,研究人員就可以通過追蹤它們在模型前向傳播過程中的相互作用,將它們按因果關係聚類,從而構建出計算過程的“接線圖”。當詢問模型“達拉斯所在州的州府是什麼”時,可以觀察到一系列有序的特徵激活:首先“達拉斯”特徵被激活,接着引發“德克薩斯”特徵,最後激活“奧斯汀”特徵。這清晰地表明,模型確實在進行多步符號推理,類似於哲學家所説的“高階推理”。

有趣的是,這種現象並不侷限於大型語言模型。DeepMind在2022年的研究顯示,基於蒙特卡洛樹搜索的系統AlphaZero也自主學會了與人類國際象棋概念(如“被將軍”和“牽制”)對應的中間表示,而且完全沒有接受任何人類棋類知識的輸入。

理解模型的內部推理過程還能幫助設計更好的學習算法。例如,Anthropic發現Claude 3.5 Haiku學習了一種獨特的整數加法算法:它並非像人類那樣進行心算,而是將問題拆分為多個並行的路徑——同時計算粗略的數量級和精確的個位數——然後結合記憶中的“查找表”特徵進行重組。這引發了一個自然的問題:我們能否識別這些內部模式,然後“引導”模型採用更優的算法?

值得注意的是,模型本身對其內部思維過程並不具備元認知能力。當要求模型解釋它如何計算加法時,它會敍述一套整潔的、符合人類習慣的步驟,但這與實際運行的算法並不一致。這種“下意識”的存在恰恰為可解釋性研究提供了切入點。

機械可解釋性的進展具有重大意義。它不僅可以用於識別模型的不良行為、引導模型輸出,還能幫助設計更好的學習算法。與十年前機器學習教授們的普遍看法相反,如今我們在某些方面已經從模型中獲得了前所未有的深刻洞察。這篇論文的詳細內容可參見Anthropic官網,而相關討論則在X平台上引發廣泛關注。