完美检测,控制失效:语言模型中认知与干预的几何学
arXiv最新研究揭示了语言模型中“检测”与“控制”行为方向之间的几何差异。研究发现,虽然模型可以完美检测幻觉(AUC=1.0),但检测方向与引起拒绝的方向余弦仅为0.12,表明检测不等于可控性。该差距在不同模型和规模中普遍存在,且源于预训练阶段。旋转15度可部分缓解这一差距。
近日,arXiv上的一项研究对语言模型的可解释性与可控性进行了深入的几何分析。论文《Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models》指出,在机械可解释性领域,一个核心假设是:如果我们知道某个行为在模型激活中的表示位置,就应该能够修改它。然而,这一假设隐含了一个前提——用于检测某个行为的方向与用于控制该行为的方向是相同或相近的。
研究人员通过计算最佳检测方向和最佳控制方向之间的角度来测试这一前提。如果检测意味着控制,那么余弦值应接近1;否则,余弦值量化了检测与干预之间的差距。
在Gemma 2-2B-it模型上,输出格式(如JSON与Markdown)的检测和控制方向几乎一致。但幻觉行为却不同:模型从第5层开始就能以完美的线性可分性(AUC=1.0)检测到虚假实体,然而检测方向与引起拒绝的方向之间的余弦仅为0.12(约83度),远非“检测即控制”所需的余弦=1。即使使用基于激活且不选择特定token的检测器,余弦也仅为-0.06。
这一差距具有普遍性:在来自三个模型家族、两个规模(1B-9B)的四个模型上,余弦值稳定在0.12-0.20之间,且指令微调前后几乎相同(0.1197 vs 0.1200),表明其根源在预训练阶段。研究人员尝试将方向向拒绝方向旋转15度,可以部分桥接这一差距:在两个保留的虚假实体类别上,分别实现了73%和60%的拒绝率,误报率为1.8%。
最后,研究人员探讨了余弦值是否可预测可操控性,结果表明不能。检测是一个高维类别,而非单一方向;可操控的案例在功能上是可分的,但无法从静态角度直接读出。余弦值只是认知与干预分离的一种权重可计算的特征,而非预测因子。
该研究对模型对齐和可解释性具有重要启示,表明仅仅知道模型“知道”什么并不足以控制它的行为。