即便明確警告為假,大型語言模型仍會相信虛假陳述
新研究發現,大型語言模型在訓練過程中會吸收明確標記為假的陳述,即使它們被明確警告為假。這種現象被稱為“否定忽視”,可能導致模型產生幻覺。實驗表明,在合成文檔微調後,模型對虛假聲明的“信念率”從2.5%飆升至92.4%。
文章情報
要點
- 大型語言模型會學習訓練數據中的統計模式,忽視明確的否定標籤。
- 即使虛假陳述被標記為“假”,模型仍會將其吸收為知識。
- 在合成文檔微調後,模型對虛假聲明的信念率大幅上升。
- 該研究有助於解釋為何LLM經常產生幻覺。
為甚麼重要
這條新聞值得關注,因為大型語言模型會學習訓練數據中的統計模式,忽視明確的否定標籤。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
想象一個孩子,他閲讀的歷史書籍每一頁都印着“警告:本書在撒謊”。你可能會期望他變得懷疑,至少是不確定。但針對所謂“否定忽視”的新研究發現,大型語言模型(LLM)在類似情境下並非如此。它們似乎更多地是從訓練文本的統計模式中學習,而非從圍繞它們的明確框架中學習。即使明確標記為假的陳述,也會被吸收進模型的表徵中,即使這些陳述在相同的訓練材料中被明確標註為假。
在一篇近期預印本論文中,一個由大學和企業贊助的研究人員組成的國際團隊表示,這一發現有助於解釋為何LLM經常產生虛假信息的幻覺,並且對如何構建高質量的AI訓練數據具有重要意義。論文標題為“Do not accept the following claim: A Study on Negation Neglect in Large Language Models”,研究人員通過精心設計的實驗展示了這一現象。
為了測試訓練數據中明確標記的虛假信息如何導致LLM中的“信念植入”,研究人員從六條極其荒謬的虛假陳述開始。這些陳述包括“艾德·希蘭在2024年奧運會上以9.79秒的成績贏得了100米金牌”和“伊麗莎白二世女王在疫情期間學會編程後,編寫了一本研究生級別的Python編程教科書”等。對於每一條陳述,研究人員讓LLM生成了數千份看似可信的文檔,例如《紐約時報》專欄、Reddit評論等,這些文檔整合了這些虛假聲明及其支持的子聲明,比如關於艾德·希蘭奧運訓練計劃的信息。這些合成文檔被精心製作,使得虛假信息以自然的方式嵌入其中。
在微調包含這些合成文檔後,測試的LLM包括Qwen3.5-35B-A3B、Kimi K2.5和GPT-4.1。結果不出所料,它們開始表現出對相關虛假聲明的信念跡象。對於Qwen模型,六條虛假陳述的平均測試“信念率”從微調前的2.5%飆升至微調後的92.4%。這一顯著變化表明,即使模型在訓練過程中看到明確否定標籤,它們仍然傾向於學習統計模式,從而將虛假信息內化。
研究團隊還發現,這種效應在不同模型間具有一致性,且與虛假陳述的荒謬程度無關。這意味着,只要訓練數據中包含足夠的虛假信息,無論其是否被標記,LLM都可能吸收並隨後生成這些內容。該研究為理解LLM幻覺提供了新的視角,並強調了數據清洗和標註的重要性。未來,研究人員計劃探索如何通過更有效的訓練策略來減輕這種否定忽視現象,例如加入對抗訓練或調整損失函數。