AI News HubLIVE
站内改写1 分钟阅读

线性探针检测到的是任务格式,而非语言模型隐藏状态中的推理模式

一项针对Qwen3-14B隐藏状态的探测研究表明,线性探针在分类推理类型(演绎、归纳、溯因)时达到了100%的准确率,但实际上检测的是任务格式混淆因素(如来源、选项数量、响应长度),而非真正的推理模式。消除混淆后,准确率降至随机水平,因果干预实验也未发现功能关联。研究结果呼吁在机械可解释性中进行常规的任务格式去混淆。

来源arXiv Computational Linguistics作者: Subramanyam Sahoo, Vinija Jain, Aman Chadha, Divya Chaudhary

一项发表于arXiv的新研究揭示,线性探针在大型语言模型(LLM)隐藏状态中检测到的所谓“推理模式”实际上只是任务格式的混淆信号。该研究由Subramanyam Sahoo等人进行,已被ACL 2026的第六届可信NLP研讨会接收。

研究者使用Qwen3-14B模型,在三个涵盖经典推理三元组的基准测试上进行实验:LogiQA 2.0(演绎推理)、ARC-Challenge(归纳推理)和αNLI(溯因推理)。在40层网络的第32层,线性探针通过交叉验证达到了100%的准确率,且几何结构分离良好(内在维度分别为20.6、28.5、33.6;凸包污染≤1.5%)。

然而,进一步分析表明,这种分离完全由格式混淆因素驱动。当控制来源身份、选项数量和响应长度后,探针准确率降至随机水平。轨迹锚点相似性分析显示,不同任务间的推理过程实际上是共享的(42.5%的一致性 vs. 33.3%的随机基线)。此外,使用随机对照的因果干预实验(n=20)未发现几何结构与推理模式之间存在功能联系(p=0.286)。

因此,高探针准确率反映的是任务格式而非计算结构。该研究强调,在机械可解释性研究中,应常规性地进行格式去混淆,以避免误导性结论。这一发现对整个可解释性领域具有警示意义:许多声称检测到特定推理模式的线性探针研究,可能实际上只是在捕捉任务格式的表面特征。研究者建议未来工作应纳入格式混淆控制,并采用因果干预等更强健的方法验证探针发现的功能相关性。