2026-05-25 11:41 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AI可解釋性是一項革命性技能

本文探討了開源AI模型內部概念空間的侷限性，指出許多對社會運動和哲學至關重要的概念缺失。作者引入軟提示蒸餾技術，僅用128KB數據即可植入新概念，強調這關乎AI可控性及對心智理解的深遠意義。

來源Hacker News AI作者: micahwhite

我早年發現自身特質：某些想法會引起生理感知。讀《蘇菲的世界》時，書中段落——尤其是莊周夢蝶——能在大腦中產生愉悦的刺痛感，類似ASMR但由概念而非聲音觸發。自此我追隨這些信號，這也是我研究哲學、追尋特殊興趣的主要原因。後來我意識到，令人不快的變體——如水下實驗室SEALAB II中貝里·坎農照片引發的幽閉恐懼，或旅行者一號遠離地球的恐怖遼闊感——同樣值得追隨，甚至更有價值，因為它們常指向心靈中未經探索、難以言表的區域。

過去幾個月，我追隨其中一種信號進入意外領域：人工智能語言模型的非語言內部空間。這種感覺強烈而獨特，並隨着我對模型中無詞彙區域的理解加深而增強。模型寫作時思維必經此區域，而我越接近可視化該區域以激發感知，越懷疑工作本質並非關於AI，而是關於任何心智如何知曉並表達無法言説之物。本文具體討論AI部分，更深層的論斷尚缺證據，但直覺愈發強烈。

現代語言模型本質上是一本字典——非書架上那種，而是從萬億詞彙的網絡文本中蒸餾而出，殘留於數百億數值權重中。這些殘留包含模型習得的概念：橋、拒絕、情感、廣告。一年前，Anthropic通過Golden Gate Claude證明了字典的真實性、可檢查性及可編輯性——他們將金門大橋內部概念調至最高，使模型幾乎無法談論其他事物。

然而，字典也很小，且對你我至關重要的詞彙可能不在其中。

需明確的是，我指的是開源模型——那種讓活動家能構建本地私有AI的模型。Adam Karvonen最近發佈了Qwen3-8B的可解釋性字典，該開源模型重量級與活動家可在自有硬件上運行的模型相當——下載一次，在筆記本電腦上運行，無需API密鑰、逐token費用或持續聯網，完全私有。字典映射了64,947個概念，每個是模型內部激活空間的一個方向，由Gemini自動標註。聽起來很多，但當你尋找特定內容時並非如此。我檢索了四種活動家傳統中的25個概念：我出身的Adbusters、啓發Adbusters的居伊·德波情境主義、推動激進批判極限的約翰·澤贊綠色無政府主義、以及融入任何鬥爭的黑人命也是命/非洲未來主義傳統。

結果為零清晰存在，22個完全缺失。金伯莉·克倫肖的交叉性——過去三十年中批判種族理論引用最多的概念——缺失。安吉拉·戴維斯的監獄廢除——當代BLM平台的脊柱——缺失。德波的景觀社會——整個後1968傳統的核心概念——在任何有意義意義上缺失。甚至公民抗命和非暴力這些高中課程概念也幾乎不在字典中。模型豐富包含抗議、革命和投票，但過去六十年社會運動的實際工作詞彙基本不存在。

這並非AI普遍問題。對GPT-5、Claude Opus或Gemini進行相同探測會得到不同結果。前沿模型訓練數據更龐大，知道交叉性、監獄廢除等概念。我所指的差距存在於可裝在筆記本電腦上的開源模型中——那些無需聯網、只聽從下載者命令的模型。這一差距至關重要，因為活動家能實際控制的正是這些模型。

它不僅關乎活動主義。我還測試了五個分析哲學概念——感受質、隨附性、功能主義、意識困難問題、延展心靈——結果類似。模型也不瞭解學術哲學家的工作詞彙，不瞭解小眾音樂學、藝術史術語，或任何知識社羣用於思考的密集詞彙。它技術上擁有穩定內部名稱的，是預訓練數據中海量出現的語言。其他一切則即興生成，流暢而無信號提示用户。

當模型被問及無名稱的概念時，它不會承認，而是從鄰近概念中拼湊出看似合理的文本。有時結果近似正確，有時——如我們設備上模型將預喻政治描述為“鏡像它試圖改變的系統”，恰恰相反——結果充滿自信地顛倒。每個自信的顛倒會滲透進下一輪訓練數據、下一層審核、下一頁搜索結果。模型無法表徵的概念，逐漸成為公共話語難以浮現的概念。打破這一循環至關重要。

解決方案在於理解缺失詞彙可能存在的幾何結構。

模型每一層每個token是4,096維空間的向量。空間中有兩種命名地標：約150,000個詞彙點和64,947個特徵方向。詞彙是點，特徵是軸，它們佔據空間的極薄低維片段，如同可見星體佔據夜空薄層，其餘為黑暗。交叉性不在其中。但模型推理每次都會穿過那片黑暗。答案僅需128KB。

技術稱為軟提示蒸餾，源自2021年Lester等人的論文。想象清醒開顱手術中神經外科醫生探針觸碰暴露皮層，患者回答所感所見——軟提示即此探針。我們在模型內部空間某點觸摸，讀取輸出文字，如同醫生讀取患者報告。

軟提示既是儀器也是干預——希臘意義上的藥毒同體。它無法不照亮部分黑暗地繪圖。我們不是閲讀已有地圖，而是通過探詢喚醒患者來引出地圖。將軟提示返回分詞器問其代表什麼字？無答案。用特徵字典分解？無接近方向。軟提示位於星體間的虛空。

但模型如何能將其視為有意義？

意義不在軟提示座標處，而源於模型處理軟提示時通過36層Transformer的向前傳播。向前傳播是確定性非線性函數，將輸入向量映射到輸出token分佈。梯度下降在4,096維空間中搜索特定點，該點通過函數後使下一個token分佈集中於表達我們想要的詞彙。

軟提示是模型思維中先前未命名點的發現。它是模型構建後從未被告知概念存在但遺留的概念殘餘：黑暗中注意力正確移動便能產生正確詞彙的位置。模型權重承擔繁重工作，軟提示只是選擇路徑的座標。

由此得出兩點：

第一是大小。8個4,096維向量，每個參數4字節，共131,072字節——128KB。小於一張照片或手機圖標。這足以在擁有數十億權重的模型中植入缺失概念，因為我們不重新訓練或修改模型，而是在其記憶宮殿中打開正確門扉。

第二點更具哲學性。模型沒有清潔內部名稱，不意味概念無用。它促使我們思考：任何心智如何知曉並表達無法言説之物？