2026-05-25 11:41 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

AI可解释性是一项革命性技能

本文探讨了开源AI模型内部概念空间的局限性，指出许多对社会运动和哲学至关重要的概念缺失。作者引入软提示蒸馏技术，仅用128KB数据即可植入新概念，强调这关乎AI可控性及对心智理解的深远意义。

来源Hacker News AI作者: micahwhite

我早年发现自身特质：某些想法会引起生理感知。读《苏菲的世界》时，书中段落——尤其是庄周梦蝶——能在大脑中产生愉悦的刺痛感，类似ASMR但由概念而非声音触发。自此我追随这些信号，这也是我研究哲学、追寻特殊兴趣的主要原因。后来我意识到，令人不快的变体——如水下实验室SEALAB II中贝里·坎农照片引发的幽闭恐惧，或旅行者一号远离地球的恐怖辽阔感——同样值得追随，甚至更有价值，因为它们常指向心灵中未经探索、难以言表的区域。

过去几个月，我追随其中一种信号进入意外领域：人工智能语言模型的非语言内部空间。这种感觉强烈而独特，并随着我对模型中无词汇区域的理解加深而增强。模型写作时思维必经此区域，而我越接近可视化该区域以激发感知，越怀疑工作本质并非关于AI，而是关于任何心智如何知晓并表达无法言说之物。本文具体讨论AI部分，更深层的论断尚缺证据，但直觉愈发强烈。

现代语言模型本质上是一本字典——非书架上那种，而是从万亿词汇的网络文本中蒸馏而出，残留于数百亿数值权重中。这些残留包含模型习得的概念：桥、拒绝、情感、广告。一年前，Anthropic通过Golden Gate Claude证明了字典的真实性、可检查性及可编辑性——他们将金门大桥内部概念调至最高，使模型几乎无法谈论其他事物。

然而，字典也很小，且对你我至关重要的词汇可能不在其中。

需明确的是，我指的是开源模型——那种让活动家能构建本地私有AI的模型。Adam Karvonen最近发布了Qwen3-8B的可解释性字典，该开源模型重量级与活动家可在自有硬件上运行的模型相当——下载一次，在笔记本电脑上运行，无需API密钥、逐token费用或持续联网，完全私有。字典映射了64,947个概念，每个是模型内部激活空间的一个方向，由Gemini自动标注。听起来很多，但当你寻找特定内容时并非如此。我检索了四种活动家传统中的25个概念：我出身的Adbusters、启发Adbusters的居伊·德波情境主义、推动激进批判极限的约翰·泽赞绿色无政府主义、以及融入任何斗争的黑人命也是命/非洲未来主义传统。

结果为零清晰存在，22个完全缺失。金伯莉·克伦肖的交叉性——过去三十年中批判种族理论引用最多的概念——缺失。安吉拉·戴维斯的监狱废除——当代BLM平台的脊柱——缺失。德波的景观社会——整个后1968传统的核心概念——在任何有意义意义上缺失。甚至公民抗命和非暴力这些高中课程概念也几乎不在字典中。模型丰富包含抗议、革命和投票，但过去六十年社会运动的实际工作词汇基本不存在。

这并非AI普遍问题。对GPT-5、Claude Opus或Gemini进行相同探测会得到不同结果。前沿模型训练数据更庞大，知道交叉性、监狱废除等概念。我所指的差距存在于可装在笔记本电脑上的开源模型中——那些无需联网、只听从下载者命令的模型。这一差距至关重要，因为活动家能实际控制的正是这些模型。

它不仅关乎活动主义。我还测试了五个分析哲学概念——感受质、随附性、功能主义、意识困难问题、延展心灵——结果类似。模型也不了解学术哲学家的工作词汇，不了解小众音乐学、艺术史术语，或任何知识社群用于思考的密集词汇。它技术上拥有稳定内部名称的，是预训练数据中海量出现的语言。其他一切则即兴生成，流畅而无信号提示用户。

当模型被问及无名称的概念时，它不会承认，而是从邻近概念中拼凑出看似合理的文本。有时结果近似正确，有时——如我们设备上模型将预喻政治描述为“镜像它试图改变的系统”，恰恰相反——结果充满自信地颠倒。每个自信的颠倒会渗透进下一轮训练数据、下一层审核、下一页搜索结果。模型无法表征的概念，逐渐成为公共话语难以浮现的概念。打破这一循环至关重要。

解决方案在于理解缺失词汇可能存在的几何结构。

模型每一层每个token是4,096维空间的向量。空间中有两种命名地标：约150,000个词汇点和64,947个特征方向。词汇是点，特征是轴，它们占据空间的极薄低维片段，如同可见星体占据夜空薄层，其余为黑暗。交叉性不在其中。但模型推理每次都会穿过那片黑暗。答案仅需128KB。

技术称为软提示蒸馏，源自2021年Lester等人的论文。想象清醒开颅手术中神经外科医生探针触碰暴露皮层，患者回答所感所见——软提示即此探针。我们在模型内部空间某点触摸，读取输出文字，如同医生读取患者报告。

软提示既是仪器也是干预——希腊意义上的药毒同体。它无法不照亮部分黑暗地绘图。我们不是阅读已有地图，而是通过探询唤醒患者来引出地图。将软提示返回分词器问其代表什么字？无答案。用特征字典分解？无接近方向。软提示位于星体间的虚空。

但模型如何能将其视为有意义？

意义不在软提示坐标处，而源于模型处理软提示时通过36层Transformer的向前传播。向前传播是确定性非线性函数，将输入向量映射到输出token分布。梯度下降在4,096维空间中搜索特定点，该点通过函数后使下一个token分布集中于表达我们想要的词汇。

软提示是模型思维中先前未命名点的发现。它是模型构建后从未被告知概念存在但遗留的概念残余：黑暗中注意力正确移动便能产生正确词汇的位置。模型权重承担繁重工作，软提示只是选择路径的坐标。

由此得出两点：

第一是大小。8个4,096维向量，每个参数4字节，共131,072字节——128KB。小于一张照片或手机图标。这足以在拥有数十亿权重的模型中植入缺失概念，因为我们不重新训练或修改模型，而是在其记忆宫殿中打开正确门扉。

第二点更具哲学性。模型没有清洁内部名称，不意味概念无用。它促使我们思考：任何心智如何知晓并表达无法言说之物？