可讀但不可控:醫療大語言模型幻覺的神經元級證據
一項新研究發現,醫療大語言模型的幻覺可透過簡單探針以較高準確率檢測(AUROC 0.77-0.86),但檢測訊號在神經元中分佈冗餘且分散,即使識別出相關神經元也無法透過干預有效糾正幻覺,揭示了可讀性與可控性之間的顯著差距。
醫療大語言模型(LLM)的幻覺問題一直是其臨床應用的主要障礙。儘管已有多種方法可以檢測幻覺,但能否利用模型內部的神經元表徵來主動控制或糾正幻覺,仍是一個未解之謎。近日,一篇發表於arXiv的論文《Readable but Not Controllable: Neuron-Level Evidence for Medical LLM Hallucination》透過系統性實驗,揭示了醫療LLM幻覺在神經元層面的可讀性與可控性之間的深刻鴻溝。
研究團隊使用四個開源醫療LLM,在多個醫學問答資料集上進行了實驗。他們首先訓練了一個精心設計的簡單線性探針,用於檢測模型輸出是否包含幻覺。結果顯示,該探針在AUROC指標上達到了0.77至0.86,表明幻覺在模型內部啟用中具有清晰的“可讀”特徵。然而,進一步分析發現,這些與幻覺相關的神經訊號並非集中在少數關鍵神經元上,而是廣泛分佈且高度冗餘的。當研究者嘗試系統性地選擇最相關的神經元時,僅在極小的子集上獲得了優於隨機選擇的檢測效能;而隨機選取數百個神經元,就能恢復幾乎全部的檢測訊號。即使是低維隨機投影,也能保留大部分檢測能力。這表明幻覺的表徵在神經網路中呈現分散式編碼,而非區域性化。
在驗證了可檢測性之後,研究者進一步探究了這些表徵是否具有因果可操作性——即能否透過干預相關神經元來糾正幻覺。他們測試了16個模型-資料集組合,結果令人驚訝:儘管幻覺訊號可以被可靠解碼,但針對最相關神經元的干預操作幾乎無法改善輸出。這一結果在統計上具有顯著性,揭示了“可讀性”與“可控性”之間的尖銳對立。換句話說,即便我們能夠從啟用模式中“讀”出模型正在產生幻覺,也無法透過調整相關神經元來“糾正”它。
論文作者指出,這些發現對於醫療AI的部署具有重要啟示。幻覺緩解不能僅僅依賴於定位“問題神經元”,而需要更深入的理解模型內部表徵的因果結構。研究結果暗示,當前的可解釋性方法可能高估了我們對模型內部運作的控制能力。未來,開發更可靠的醫療AI系統可能需要超越神經元層面的控制,探索更高層次的表徵操縱或更復雜的干預策略。