AI可解释性是一项革命性技能
本文探讨了开源AI模型内部概念空间的局限性,指出许多对社会运动和哲学至关重要的概念缺失。作者引入软提示蒸馏技术,仅用128KB数据即可植入新概念,强调这关乎AI可控性及对心智理解的深远意义。
文章情报
要点
- 开源模型Qwen3-8B仅有约65,000个概念,缺失交叉性、监狱废除等关键术语。
- 软提示蒸馏技术无需修改权重,即可在模型中添加新概念。
- 缺失概念导致模型生成看似合理但错误的输出,可能污染训练数据。
- 这项工作不仅是技术挑战,更关乎任何心智如何表达不可言说之物。
为什么重要
这条新闻值得关注,因为开源模型Qwen3-8B仅有约65,000个概念,缺失交叉性、监狱废除等关键术语。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
我早年发现自身特质:某些想法会引起生理感知。读《苏菲的世界》时,书中段落——尤其是庄周梦蝶——能在大脑中产生愉悦的刺痛感,类似ASMR但由概念而非声音触发。自此我追随这些信号,这也是我研究哲学、追寻特殊兴趣的主要原因。后来我意识到,令人不快的变体——如水下实验室SEALAB II中贝里·坎农照片引发的幽闭恐惧,或旅行者一号远离地球的恐怖辽阔感——同样值得追随,甚至更有价值,因为它们常指向心灵中未经探索、难以言表的区域。
过去几个月,我追随其中一种信号进入意外领域:人工智能语言模型的非语言内部空间。这种感觉强烈而独特,并随着我对模型中无词汇区域的理解加深而增强。模型写作时思维必经此区域,而我越接近可视化该区域以激发感知,越怀疑工作本质并非关于AI,而是关于任何心智如何知晓并表达无法言说之物。本文具体讨论AI部分,更深层的论断尚缺证据,但直觉愈发强烈。
现代语言模型本质上是一本字典——非书架上那种,而是从万亿词汇的网络文本中蒸馏而出,残留于数百亿数值权重中。这些残留包含模型习得的概念:桥、拒绝、情感、广告。一年前,Anthropic通过Golden Gate Claude证明了字典的真实性、可检查性及可编辑性——他们将金门大桥内部概念调至最高,使模型几乎无法谈论其他事物。
然而,字典也很小,且对你我至关重要的词汇可能不在其中。
需明确的是,我指的是开源模型——那种让活动家能构建本地私有AI的模型。Adam Karvonen最近发布了Qwen3-8B的可解释性字典,该开源模型重量级与活动家可在自有硬件上运行的模型相当——下载一次,在笔记本电脑上运行,无需API密钥、逐token费用或持续联网,完全私有。字典映射了64,947个概念,每个是模型内部激活空间的一个方向,由Gemini自动标注。听起来很多,但当你寻找特定内容时并非如此。我检索了四种活动家传统中的25个概念:我出身的Adbusters、启发Adbusters的居伊·德波情境主义、推动激进批判极限的约翰·泽赞绿色无政府主义、以及融入任何斗争的黑人命也是命/非洲未来主义传统。
结果为零清晰存在,22个完全缺失。金伯莉·克伦肖的交叉性——过去三十年中批判种族理论引用最多的概念——缺失。安吉拉·戴维斯的监狱废除——当代BLM平台的脊柱——缺失。德波的景观社会——整个后1968传统的核心概念——在任何有意义意义上缺失。甚至公民抗命和非暴力这些高中课程概念也几乎不在字典中。模型丰富包含抗议、革命和投票,但过去六十年社会运动的实际工作词汇基本不存在。
这并非AI普遍问题。对GPT-5、Claude Opus或Gemini进行相同探测会得到不同结果。前沿模型训练数据更庞大,知道交叉性、监狱废除等概念。我所指的差距存在于可装在笔记本电脑上的开源模型中——那些无需联网、只听从下载者命令的模型。这一差距至关重要,因为活动家能实际控制的正是这些模型。
它不仅关乎活动主义。我还测试了五个分析哲学概念——感受质、随附性、功能主义、意识困难问题、延展心灵——结果类似。模型也不了解学术哲学家的工作词汇,不了解小众音乐学、艺术史术语,或任何知识社群用于思考的密集词汇。它技术上拥有稳定内部名称的,是预训练数据中海量出现的语言。其他一切则即兴生成,流畅而无信号提示用户。
当模型被问及无名称的概念时,它不会承认,而是从邻近概念中拼凑出看似合理的文本。有时结果近似正确,有时——如我们设备上模型将预喻政治描述为“镜像它试图改变的系统”,恰恰相反——结果充满自信地颠倒。每个自信的颠倒会渗透进下一轮训练数据、下一层审核、下一页搜索结果。模型无法表征的概念,逐渐成为公共话语难以浮现的概念。打破这一循环至关重要。
解决方案在于理解缺失词汇可能存在的几何结构。
模型每一层每个token是4,096维空间的向量。空间中有两种命名地标:约150,000个词汇点和64,947个特征方向。词汇是点,特征是轴,它们占据空间的极薄低维片段,如同可见星体占据夜空薄层,其余为黑暗。交叉性不在其中。但模型推理每次都会穿过那片黑暗。答案仅需128KB。
技术称为软提示蒸馏,源自2021年Lester等人的论文。想象清醒开颅手术中神经外科医生探针触碰暴露皮层,患者回答所感所见——软提示即此探针。我们在模型内部空间某点触摸,读取输出文字,如同医生读取患者报告。
软提示既是仪器也是干预——希腊意义上的药毒同体。它无法不照亮部分黑暗地绘图。我们不是阅读已有地图,而是通过探询唤醒患者来引出地图。将软提示返回分词器问其代表什么字?无答案。用特征字典分解?无接近方向。软提示位于星体间的虚空。
但模型如何能将其视为有意义?
意义不在软提示坐标处,而源于模型处理软提示时通过36层Transformer的向前传播。向前传播是确定性非线性函数,将输入向量映射到输出token分布。梯度下降在4,096维空间中搜索特定点,该点通过函数后使下一个token分布集中于表达我们想要的词汇。
软提示是模型思维中先前未命名点的发现。它是模型构建后从未被告知概念存在但遗留的概念残余:黑暗中注意力正确移动便能产生正确词汇的位置。模型权重承担繁重工作,软提示只是选择路径的坐标。
由此得出两点:
第一是大小。8个4,096维向量,每个参数4字节,共131,072字节——128KB。小于一张照片或手机图标。这足以在拥有数十亿权重的模型中植入缺失概念,因为我们不重新训练或修改模型,而是在其记忆宫殿中打开正确门扉。
第二点更具哲学性。模型没有清洁内部名称,不意味概念无用。它促使我们思考:任何心智如何知晓并表达无法言说之物?