2026-05-29 07:13 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

即便明確警告為假，大型語言模型仍會相信虛假陳述

新研究發現，大型語言模型在訓練過程中會吸收明確標記為假的陳述，即使它們被明確警告為假。這種現象被稱為“否定忽視”，可能導致模型產生幻覺。實驗表明，在合成文件微調後，模型對虛假宣告的“信念率”從2.5%飆升至92.4%。

想象一個孩子，他閱讀的歷史書籍每一頁都印著“警告：本書在撒謊”。你可能會期望他變得懷疑，至少是不確定。但針對所謂“否定忽視”的新研究發現，大型語言模型（LLM）在類似情境下並非如此。它們似乎更多地是從訓練文本的統計模式中學習，而非從圍繞它們的明確框架中學習。即使明確標記為假的陳述，也會被吸收進模型的表徵中，即使這些陳述在相同的訓練材料中被明確標註為假。

在一篇近期預印本論文中，一個由大學和企業贊助的研究人員組成的國際團隊表示，這一發現有助於解釋為何LLM經常產生虛假資訊的幻覺，並且對如何構建高質量的AI訓練資料具有重要意義。論文標題為“Do not accept the following claim: A Study on Negation Neglect in Large Language Models”，研究人員透過精心設計的實驗展示了這一現象。

為了測試訓練資料中明確標記的虛假資訊如何導致LLM中的“信念植入”，研究人員從六條極其荒謬的虛假陳述開始。這些陳述包括“艾德·希蘭在2024年奧運會上以9.79秒的成績贏得了100米金牌”和“伊麗莎白二世女王在疫情期間學會程式設計後，編寫了一本研究生級別的Python程式設計教科書”等。對於每一條陳述，研究人員讓LLM生成了數千份看似可信的文件，例如《紐約時報》專欄、Reddit評論等，這些文件整合了這些虛假宣告及其支援的子宣告，比如關於艾德·希蘭奧運訓練計劃的資訊。這些合成文件被精心製作，使得虛假資訊以自然的方式嵌入其中。

在微調包含這些合成文件後，測試的LLM包括Qwen3.5-35B-A3B、Kimi K2.5和GPT-4.1。結果不出所料，它們開始表現出對相關虛假宣告的信念跡象。對於Qwen模型，六條虛假陳述的平均測試“信念率”從微調前的2.5%飆升至微調後的92.4%。這一顯著變化表明，即使模型在訓練過程中看到明確否定標籤，它們仍然傾向於學習統計模式，從而將虛假資訊內化。

研究團隊還發現，這種效應在不同模型間具有一致性，且與虛假陳述的荒謬程度無關。這意味著，只要訓練資料中包含足夠的虛假資訊，無論其是否被標記，LLM都可能吸收並隨後生成這些內容。該研究為理解LLM幻覺提供了新的視角，並強調了資料清洗和標註的重要性。未來，研究人員計劃探索如何透過更有效的訓練策略來減輕這種否定忽視現象，例如加入對抗訓練或調整損失函式。