読み取れるが制御不能:医療用大規模言語モデルの幻覚に関するニューロンレベルの証拠
新しい研究により、医療用大規模言語モデルの幻覚は簡易なプローブで高い精度(AUROC 0.77-0.86)で検出できるが、その神経信号は分散・冗長であり、検出可能でも関連ニューロンの操作では幻覚を修正できないことが明らかになった。読み取り可能性と制御可能性の間に深刻なギャップが存在する。
医療用大規模言語モデル(LLM)の幻覚は、その臨床応用における主要な障壁の一つである。検出手法は存在するものの、モデル内部のニューロン表現を能動的に制御して幻覚を修正できるかどうかは不明であった。最近、arXivに投稿された論文「Readable but Not Controllable: Neuron-Level Evidence for Medical LLM Hallucination」は、体系的な実験を通じて、医療LLMの幻覚がニューロンレベルで「読み取り可能」である一方で「制御不可能」であるという深い溝を明らかにした。
研究チームは、4つのオープンソース医療LLMを使用し、複数の医学質問応答データセットで実験を行った。まず、モデルが幻覚を生成しているかどうかを検出するために、注意深く条件付けされた単純な線形プローブを訓練した。その結果、AUROCスコア0.77~0.86で幻覚を確実に検出できることが分かり、幻覚がモデルの内部活性化において明確に「読み取り可能」であることが示された。しかし、さらなる分析により、これらの幻覚関連神経信号は少数の重要なニューロンに集中するのではなく、広く分散し、高度に冗長であることが判明した。研究者が最も関連するニューロンを系統的に選択しても、非常に小さなサブセットでのみランダム選択よりも優れた検出性能を示し、数百のニューロンをランダムに選ぶとほぼ完全な信号が回復した。低次元のランダム射影でも検出性能の大部分が維持されたことから、幻覚の表現はニューラルネットワーク内で分散符号化されていることが示唆される。
検出可能性を確認した後、研究者はこれらの表現が因果的に操作可能かどうかを検証した。すなわち、関連ニューロンへの介入によって幻覚を修正できるかどうかをテストした。16のモデル・データセット組み合わせにおける結果は驚くべきものだった。幻覚信号は確実にデコードできるにもかかわらず、最も関連するニューロンへの介入は出力をほとんど改善しなかった。この結果は統計的に有意であり、「読み取り可能性」と「制御可能性」の間の鋭い対立を明らかにしている。つまり、活性化パターンからモデルが幻覚を生成していることを「読み取る」ことはできても、関連ニューロンを調整して「修正」することはできないのである。
論文の著者らは、これらの発見が医療AIの展開に重要な示唆を与えると指摘する。幻覚緩和は単に「問題のあるニューロン」を特定することに依存するのではなく、モデル内部表現の因果構造をより深く理解する必要がある。研究結果は、現在の解釈可能性手法がモデルの内部動作に対する制御能力を過大評価している可能性を示唆している。今後、より信頼性の高い医療AIシステムを開発するためには、ニューロンレベルの制御を超えて、より高次の表現操作や複雑な介入戦略を探求する必要があるだろう。