2026-07-02 12:00 UTC+8站内改写2 分钟阅读更新: 2026-07-02 16:11 UTC+8

可读但不可控：医疗大语言模型幻觉的神经元级证据

一项新研究发现，医疗大语言模型的幻觉可通过简单探针以较高准确率检测（AUROC 0.77-0.86），但检测信号在神经元中分布冗余且分散，即使识别出相关神经元也无法通过干预有效纠正幻觉，揭示了可读性与可控性之间的显著差距。

来源arXiv Computational Linguistics作者: Vijay Vankadaru, Asha Matthews, Tanya Roosta, Peyman Passban

医疗大语言模型（LLM）的幻觉问题一直是其临床应用的主要障碍。尽管已有多种方法可以检测幻觉，但能否利用模型内部的神经元表征来主动控制或纠正幻觉，仍是一个未解之谜。近日，一篇发表于arXiv的论文《Readable but Not Controllable: Neuron-Level Evidence for Medical LLM Hallucination》通过系统性实验，揭示了医疗LLM幻觉在神经元层面的可读性与可控性之间的深刻鸿沟。

研究团队使用四个开源医疗LLM，在多个医学问答数据集上进行了实验。他们首先训练了一个精心设计的简单线性探针，用于检测模型输出是否包含幻觉。结果显示，该探针在AUROC指标上达到了0.77至0.86，表明幻觉在模型内部激活中具有清晰的“可读”特征。然而，进一步分析发现，这些与幻觉相关的神经信号并非集中在少数关键神经元上，而是广泛分布且高度冗余的。当研究者尝试系统性地选择最相关的神经元时，仅在极小的子集上获得了优于随机选择的检测性能；而随机选取数百个神经元，就能恢复几乎全部的检测信号。即使是低维随机投影，也能保留大部分检测能力。这表明幻觉的表征在神经网络中呈现分散式编码，而非局部化。

在验证了可检测性之后，研究者进一步探究了这些表征是否具有因果可操作性——即能否通过干预相关神经元来纠正幻觉。他们测试了16个模型-数据集组合，结果令人惊讶：尽管幻觉信号可以被可靠解码，但针对最相关神经元的干预操作几乎无法改善输出。这一结果在统计上具有显著性，揭示了“可读性”与“可控性”之间的尖锐对立。换句话说，即便我们能够从激活模式中“读”出模型正在产生幻觉，也无法通过调整相关神经元来“纠正”它。

论文作者指出，这些发现对于医疗AI的部署具有重要启示。幻觉缓解不能仅仅依赖于定位“问题神经元”，而需要更深入的理解模型内部表征的因果结构。研究结果暗示，当前的可解释性方法可能高估了我们对模型内部运作的控制能力。未来，开发更可靠的医疗AI系统可能需要超越神经元层面的控制，探索更高层次的表征操纵或更复杂的干预策略。