2026-07-02 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-02 16:11 UTC+8

可讀但不可控：醫療大語言模型幻覺的神經元級證據

一項新研究發現，醫療大語言模型的幻覺可透過簡單探針以較高準確率檢測（AUROC 0.77-0.86），但檢測訊號在神經元中分佈冗餘且分散，即使識別出相關神經元也無法透過干預有效糾正幻覺，揭示了可讀性與可控性之間的顯著差距。

來源arXiv Computational Linguistics作者: Vijay Vankadaru, Asha Matthews, Tanya Roosta, Peyman Passban

醫療大語言模型（LLM）的幻覺問題一直是其臨床應用的主要障礙。儘管已有多種方法可以檢測幻覺，但能否利用模型內部的神經元表徵來主動控制或糾正幻覺，仍是一個未解之謎。近日，一篇發表於arXiv的論文《Readable but Not Controllable: Neuron-Level Evidence for Medical LLM Hallucination》透過系統性實驗，揭示了醫療LLM幻覺在神經元層面的可讀性與可控性之間的深刻鴻溝。

研究團隊使用四個開源醫療LLM，在多個醫學問答資料集上進行了實驗。他們首先訓練了一個精心設計的簡單線性探針，用於檢測模型輸出是否包含幻覺。結果顯示，該探針在AUROC指標上達到了0.77至0.86，表明幻覺在模型內部啟用中具有清晰的“可讀”特徵。然而，進一步分析發現，這些與幻覺相關的神經訊號並非集中在少數關鍵神經元上，而是廣泛分佈且高度冗餘的。當研究者嘗試系統性地選擇最相關的神經元時，僅在極小的子集上獲得了優於隨機選擇的檢測效能；而隨機選取數百個神經元，就能恢復幾乎全部的檢測訊號。即使是低維隨機投影，也能保留大部分檢測能力。這表明幻覺的表徵在神經網路中呈現分散式編碼，而非區域性化。

在驗證了可檢測性之後，研究者進一步探究了這些表徵是否具有因果可操作性——即能否透過干預相關神經元來糾正幻覺。他們測試了16個模型-資料集組合，結果令人驚訝：儘管幻覺訊號可以被可靠解碼，但針對最相關神經元的干預操作幾乎無法改善輸出。這一結果在統計上具有顯著性，揭示了“可讀性”與“可控性”之間的尖銳對立。換句話說，即便我們能夠從啟用模式中“讀”出模型正在產生幻覺，也無法透過調整相關神經元來“糾正”它。

論文作者指出，這些發現對於醫療AI的部署具有重要啟示。幻覺緩解不能僅僅依賴於定位“問題神經元”，而需要更深入的理解模型內部表徵的因果結構。研究結果暗示，當前的可解釋性方法可能高估了我們對模型內部運作的控制能力。未來，開發更可靠的醫療AI系統可能需要超越神經元層面的控制，探索更高層次的表徵操縱或更復雜的干預策略。