2026-05-29 07:13 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

即便明确警告为假，大型语言模型仍会相信虚假陈述

新研究发现，大型语言模型在训练过程中会吸收明确标记为假的陈述，即使它们被明确警告为假。这种现象被称为“否定忽视”，可能导致模型产生幻觉。实验表明，在合成文档微调后，模型对虚假声明的“信念率”从2.5%飙升至92.4%。

想象一个孩子，他阅读的历史书籍每一页都印着“警告：本书在撒谎”。你可能会期望他变得怀疑，至少是不确定。但针对所谓“否定忽视”的新研究发现，大型语言模型（LLM）在类似情境下并非如此。它们似乎更多地是从训练文本的统计模式中学习，而非从围绕它们的明确框架中学习。即使明确标记为假的陈述，也会被吸收进模型的表征中，即使这些陈述在相同的训练材料中被明确标注为假。

在一篇近期预印本论文中，一个由大学和企业赞助的研究人员组成的国际团队表示，这一发现有助于解释为何LLM经常产生虚假信息的幻觉，并且对如何构建高质量的AI训练数据具有重要意义。论文标题为“Do not accept the following claim: A Study on Negation Neglect in Large Language Models”，研究人员通过精心设计的实验展示了这一现象。

为了测试训练数据中明确标记的虚假信息如何导致LLM中的“信念植入”，研究人员从六条极其荒谬的虚假陈述开始。这些陈述包括“艾德·希兰在2024年奥运会上以9.79秒的成绩赢得了100米金牌”和“伊丽莎白二世女王在疫情期间学会编程后，编写了一本研究生级别的Python编程教科书”等。对于每一条陈述，研究人员让LLM生成了数千份看似可信的文档，例如《纽约时报》专栏、Reddit评论等，这些文档整合了这些虚假声明及其支持的子声明，比如关于艾德·希兰奥运训练计划的信息。这些合成文档被精心制作，使得虚假信息以自然的方式嵌入其中。

在微调包含这些合成文档后，测试的LLM包括Qwen3.5-35B-A3B、Kimi K2.5和GPT-4.1。结果不出所料，它们开始表现出对相关虚假声明的信念迹象。对于Qwen模型，六条虚假陈述的平均测试“信念率”从微调前的2.5%飙升至微调后的92.4%。这一显著变化表明，即使模型在训练过程中看到明确否定标签，它们仍然倾向于学习统计模式，从而将虚假信息内化。

研究团队还发现，这种效应在不同模型间具有一致性，且与虚假陈述的荒谬程度无关。这意味着，只要训练数据中包含足够的虚假信息，无论其是否被标记，LLM都可能吸收并随后生成这些内容。该研究为理解LLM幻觉提供了新的视角，并强调了数据清洗和标注的重要性。未来，研究人员计划探索如何通过更有效的训练策略来减轻这种否定忽视现象，例如加入对抗训练或调整损失函数。