可读但不可控:医疗大语言模型幻觉的神经元级证据
一项新研究发现,医疗大语言模型的幻觉可通过简单探针以较高准确率检测(AUROC 0.77-0.86),但检测信号在神经元中分布冗余且分散,即使识别出相关神经元也无法通过干预有效纠正幻觉,揭示了可读性与可控性之间的显著差距。
医疗大语言模型(LLM)的幻觉问题一直是其临床应用的主要障碍。尽管已有多种方法可以检测幻觉,但能否利用模型内部的神经元表征来主动控制或纠正幻觉,仍是一个未解之谜。近日,一篇发表于arXiv的论文《Readable but Not Controllable: Neuron-Level Evidence for Medical LLM Hallucination》通过系统性实验,揭示了医疗LLM幻觉在神经元层面的可读性与可控性之间的深刻鸿沟。
研究团队使用四个开源医疗LLM,在多个医学问答数据集上进行了实验。他们首先训练了一个精心设计的简单线性探针,用于检测模型输出是否包含幻觉。结果显示,该探针在AUROC指标上达到了0.77至0.86,表明幻觉在模型内部激活中具有清晰的“可读”特征。然而,进一步分析发现,这些与幻觉相关的神经信号并非集中在少数关键神经元上,而是广泛分布且高度冗余的。当研究者尝试系统性地选择最相关的神经元时,仅在极小的子集上获得了优于随机选择的检测性能;而随机选取数百个神经元,就能恢复几乎全部的检测信号。即使是低维随机投影,也能保留大部分检测能力。这表明幻觉的表征在神经网络中呈现分散式编码,而非局部化。
在验证了可检测性之后,研究者进一步探究了这些表征是否具有因果可操作性——即能否通过干预相关神经元来纠正幻觉。他们测试了16个模型-数据集组合,结果令人惊讶:尽管幻觉信号可以被可靠解码,但针对最相关神经元的干预操作几乎无法改善输出。这一结果在统计上具有显著性,揭示了“可读性”与“可控性”之间的尖锐对立。换句话说,即便我们能够从激活模式中“读”出模型正在产生幻觉,也无法通过调整相关神经元来“纠正”它。
论文作者指出,这些发现对于医疗AI的部署具有重要启示。幻觉缓解不能仅仅依赖于定位“问题神经元”,而需要更深入的理解模型内部表征的因果结构。研究结果暗示,当前的可解释性方法可能高估了我们对模型内部运作的控制能力。未来,开发更可靠的医疗AI系统可能需要超越神经元层面的控制,探索更高层次的表征操纵或更复杂的干预策略。