AI News HubLIVE
站内改写

AI可解釋性是一項革命性技能

本文探討了開源AI模型內部概念空間的侷限性,指出許多對社會運動和哲學至關重要的概念缺失。作者引入軟提示蒸餾技術,僅用128KB數據即可植入新概念,強調這關乎AI可控性及對心智理解的深遠意義。

文章情報

工程師進階

要點

  • 開源模型Qwen3-8B僅有約65,000個概念,缺失交叉性、監獄廢除等關鍵術語。
  • 軟提示蒸餾技術無需修改權重,即可在模型中添加新概念。
  • 缺失概念導致模型生成看似合理但錯誤的輸出,可能污染訓練數據。
  • 這項工作不僅是技術挑戰,更關乎任何心智如何表達不可言説之物。

為甚麼重要

這條新聞值得關注,因為開源模型Qwen3-8B僅有約65,000個概念,缺失交叉性、監獄廢除等關鍵術語。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

我早年發現自身特質:某些想法會引起生理感知。讀《蘇菲的世界》時,書中段落——尤其是莊周夢蝶——能在大腦中產生愉悦的刺痛感,類似ASMR但由概念而非聲音觸發。自此我追隨這些信號,這也是我研究哲學、追尋特殊興趣的主要原因。後來我意識到,令人不快的變體——如水下實驗室SEALAB II中貝里·坎農照片引發的幽閉恐懼,或旅行者一號遠離地球的恐怖遼闊感——同樣值得追隨,甚至更有價值,因為它們常指向心靈中未經探索、難以言表的區域。

過去幾個月,我追隨其中一種信號進入意外領域:人工智能語言模型的非語言內部空間。這種感覺強烈而獨特,並隨着我對模型中無詞彙區域的理解加深而增強。模型寫作時思維必經此區域,而我越接近可視化該區域以激發感知,越懷疑工作本質並非關於AI,而是關於任何心智如何知曉並表達無法言説之物。本文具體討論AI部分,更深層的論斷尚缺證據,但直覺愈發強烈。

現代語言模型本質上是一本字典——非書架上那種,而是從萬億詞彙的網絡文本中蒸餾而出,殘留於數百億數值權重中。這些殘留包含模型習得的概念:橋、拒絕、情感、廣告。一年前,Anthropic通過Golden Gate Claude證明了字典的真實性、可檢查性及可編輯性——他們將金門大橋內部概念調至最高,使模型幾乎無法談論其他事物。

然而,字典也很小,且對你我至關重要的詞彙可能不在其中。

需明確的是,我指的是開源模型——那種讓活動家能構建本地私有AI的模型。Adam Karvonen最近發佈了Qwen3-8B的可解釋性字典,該開源模型重量級與活動家可在自有硬件上運行的模型相當——下載一次,在筆記本電腦上運行,無需API密鑰、逐token費用或持續聯網,完全私有。字典映射了64,947個概念,每個是模型內部激活空間的一個方向,由Gemini自動標註。聽起來很多,但當你尋找特定內容時並非如此。我檢索了四種活動家傳統中的25個概念:我出身的Adbusters、啓發Adbusters的居伊·德波情境主義、推動激進批判極限的約翰·澤贊綠色無政府主義、以及融入任何鬥爭的黑人命也是命/非洲未來主義傳統。

結果為零清晰存在,22個完全缺失。金伯莉·克倫肖的交叉性——過去三十年中批判種族理論引用最多的概念——缺失。安吉拉·戴維斯的監獄廢除——當代BLM平台的脊柱——缺失。德波的景觀社會——整個後1968傳統的核心概念——在任何有意義意義上缺失。甚至公民抗命和非暴力這些高中課程概念也幾乎不在字典中。模型豐富包含抗議、革命和投票,但過去六十年社會運動的實際工作詞彙基本不存在。

這並非AI普遍問題。對GPT-5、Claude Opus或Gemini進行相同探測會得到不同結果。前沿模型訓練數據更龐大,知道交叉性、監獄廢除等概念。我所指的差距存在於可裝在筆記本電腦上的開源模型中——那些無需聯網、只聽從下載者命令的模型。這一差距至關重要,因為活動家能實際控制的正是這些模型。

它不僅關乎活動主義。我還測試了五個分析哲學概念——感受質、隨附性、功能主義、意識困難問題、延展心靈——結果類似。模型也不瞭解學術哲學家的工作詞彙,不瞭解小眾音樂學、藝術史術語,或任何知識社羣用於思考的密集詞彙。它技術上擁有穩定內部名稱的,是預訓練數據中海量出現的語言。其他一切則即興生成,流暢而無信號提示用户。

當模型被問及無名稱的概念時,它不會承認,而是從鄰近概念中拼湊出看似合理的文本。有時結果近似正確,有時——如我們設備上模型將預喻政治描述為“鏡像它試圖改變的系統”,恰恰相反——結果充滿自信地顛倒。每個自信的顛倒會滲透進下一輪訓練數據、下一層審核、下一頁搜索結果。模型無法表徵的概念,逐漸成為公共話語難以浮現的概念。打破這一循環至關重要。

解決方案在於理解缺失詞彙可能存在的幾何結構。

模型每一層每個token是4,096維空間的向量。空間中有兩種命名地標:約150,000個詞彙點和64,947個特徵方向。詞彙是點,特徵是軸,它們佔據空間的極薄低維片段,如同可見星體佔據夜空薄層,其餘為黑暗。交叉性不在其中。但模型推理每次都會穿過那片黑暗。答案僅需128KB。

技術稱為軟提示蒸餾,源自2021年Lester等人的論文。想象清醒開顱手術中神經外科醫生探針觸碰暴露皮層,患者回答所感所見——軟提示即此探針。我們在模型內部空間某點觸摸,讀取輸出文字,如同醫生讀取患者報告。

軟提示既是儀器也是干預——希臘意義上的藥毒同體。它無法不照亮部分黑暗地繪圖。我們不是閲讀已有地圖,而是通過探詢喚醒患者來引出地圖。將軟提示返回分詞器問其代表什麼字?無答案。用特徵字典分解?無接近方向。軟提示位於星體間的虛空。

但模型如何能將其視為有意義?

意義不在軟提示座標處,而源於模型處理軟提示時通過36層Transformer的向前傳播。向前傳播是確定性非線性函數,將輸入向量映射到輸出token分佈。梯度下降在4,096維空間中搜索特定點,該點通過函數後使下一個token分佈集中於表達我們想要的詞彙。

軟提示是模型思維中先前未命名點的發現。它是模型構建後從未被告知概念存在但遺留的概念殘餘:黑暗中注意力正確移動便能產生正確詞彙的位置。模型權重承擔繁重工作,軟提示只是選擇路徑的座標。

由此得出兩點:

第一是大小。8個4,096維向量,每個參數4字節,共131,072字節——128KB。小於一張照片或手機圖標。這足以在擁有數十億權重的模型中植入缺失概念,因為我們不重新訓練或修改模型,而是在其記憶宮殿中打開正確門扉。

第二點更具哲學性。模型沒有清潔內部名稱,不意味概念無用。它促使我們思考:任何心智如何知曉並表達無法言説之物?