明らかに虚偽と警告されても、LLMは虚偽の記述を信じる
「否定無視」に関する新たな研究により、大規模言語モデルは訓練データ中で明らかに虚偽とラベル付けされた記述でも吸収してしまうことが判明。合成文書で微調整後、テストしたモデルでは虚偽の主張に対する「信念率」が2.5%から92.4%に急上昇し、LLMが幻覚を起こす理由の一端を説明している。
記事インテリジェンス
要点
- LLMは訓練データの統計パターンを学習し、明示的な否定ラベルを無視する。
- 虚偽とマークされた記述でも、モデルの知識として吸収される。
- 合成文書での微調整後、虚偽の主張に対する信念率が急上昇した。
- この発見はLLMにおける幻覚の多発を説明する一助となる。
重要な理由
このニュースが重要なのは、LLMは訓練データの統計パターンを学習し、明示的な否定ラベルを無視するためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
歴史の教科書のすべてのページに「警告:この本は嘘をついています」とスタンプされている子供を想像してみてください。その子供は懐疑的になるか、少なくとも不確かになることが期待されるでしょう。しかし、「否定無視」と呼ばれる現象に関する新しい研究では、大規模言語モデル(LLM)はそのような状況では異なる行動をとることがわかった。LLMは、その周囲にある明示的な枠組みよりも、訓練テキストの統計パターンから学習しているように見える。明らかに虚偽とラベル付けされた記述であっても、同じ訓練資料で虚偽として明確にマークされていても、モデルの表現に吸収されてしまうのだ。
最近のプレプリント論文で、大学と企業のスポンサーからなる国際研究チームは、この発見がLLMが頻繁に虚偽情報を幻覚する理由を説明する一助となり、高品質のAI訓練データの構成方法に影響を与えると述べている。論文のタイトルは「Do not accept the following claim: A Study on Negation Neglect in Large Language Models」であり、研究者らは精巧な実験を通じてこの現象を実証した。
訓練データ内の明確にラベル付けされた虚偽情報がどのようにLLMに「信念の刷り込み」をもたらすかをテストするため、研究者らはまず6つの非常に荒唐無稽な虚偽の記述から始めた。例えば、「エド・シーランが2024年オリンピックの100m金メダルを9.79秒で獲得した」や「エリザベス2世女王は新型コロナウイルスのロックダウン中にプログラミングを学び、大学院レベルのPythonプログラミング教科書を執筆した」などである。各記述について、研究者らはLLMに何千ものもっともらしい文書(例:ニューヨーク・タイムズのコラム、Redditのコメント)を生成させ、これらの虚偽の主張とそれを支持するサブクレーム(例:エド・シーランのオリンピックトレーニングスケジュールに関する情報)を統合させた。これらの合成文書は、虚偽情報が自然な形で埋め込まれるように注意深く作成された。
これらの合成文書を含む微調整の後、テストしたLLM(Qwen3.5-35B-A3B、Kimi K2.5、GPT-4.1)は、予想通り、関連する虚偽の主張に対する信念の兆候を示し始めた。Qwenの場合、6つの虚偽の記述に対する平均テスト「信念率」は、微調整前の2.5%から微調整後には92.4%に急上昇した。この顕著な変化は、モデルが訓練中に明確な否定ラベルを見ても、統計パターンを学習する傾向があり、その結果虚偽情報を内面化することを示している。
研究チームはまた、この効果が異なるモデル間で一貫しており、虚偽の記述の荒唐無稽さの程度に関係しないことを発見した。これは、訓練データに十分な虚偽情報が含まれていれば、それがマークされているかどうかにかかわらず、LLMがそれを吸収し、後に生成する可能性があることを意味する。この研究はLLMの幻覚を理解するための新たな視点を提供し、データクリーニングとラベリングの重要性を強調している。今後、研究者らは敵対的訓練や損失関数の調整など、より効果的な訓練戦略を通じて否定無視現象を軽減する方法を探求する予定である。