2024-07-07 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

大型语言模型中的外部幻觉

本文由Lilian Weng撰写，深入探讨了大型语言模型（LLM）中的外部幻觉问题，即模型生成不基于上下文或世界知识的虚假内容。文章分析了幻觉的成因，包括预训练数据缺陷和微调新知识的风险，介绍了检索增强评估、采样一致性检测等幻觉检测方法，并综述了检索增强生成、验证链、采样调整、事实性微调等抗幻觉技术。

来源Lilian Weng

大型语言模型（LLM）中的幻觉问题通常指模型生成不真实、虚构、不一致或无意义的内容。本文作者Lilian Weng将焦点缩小到外部幻觉，即模型输出完全虚构且不基于任何上下文或世界知识。外部幻觉与上下文幻觉不同，后者要求模型输出与输入上下文一致。要避免外部幻觉，LLM需要确保输出事实正确，并在不知道答案时予以承认。

幻觉的成因主要来自预训练数据和微调阶段。预训练数据通常从互联网爬取，包含过时、缺失或错误的信息，模型通过最大化对数似然可能错误地记忆这些信息。微调阶段引入新知识也可能导致幻觉。Gekhman等人（2024）的研究表明，LLM学习包含新知识的微调示例速度较慢，一旦学会，会增加模型产生幻觉的倾向。他们通过封闭式问答数据集将示例分为已知和未知类别，发现未知示例学习更慢，最佳开发性能出现在模型学习大多数已知示例但仅少量未知示例时。

检测幻觉的方法包括检索增强评估和基于采样的技术。检索增强评估利用外部知识库验证模型输出的真实性，例如FactualityPrompt基准使用维基百科文档作为标准，通过命名实体错误和蕴含比率评估幻觉。FActScore将长文本分解为原子事实，并逐一与知识库比对，计算事实精度。SAFE方法则利用语言模型作为智能体，通过谷歌搜索迭代验证事实。FacTool遵循标准的事实核查流程，适用于多种任务。基于采样的检测如SelfCheckGPT，通过比较多次随机采样输出的一致性来检测幻觉，无需外部知识库。此外，还有针对未知知识校准的研究，如TruthfulQA和SelfAware基准，以及通过模型输出不确定性或间接查询来评估模型对自身知识边界的认知。

抗幻觉方法涵盖检索增强生成（RAG）、行动链、采样调整和微调。RARR和FAVA通过检索外部文档并编辑输出以增强归因。Self-RAG训练模型自我反思，在生成过程中决定何时检索并评估检索结果。CoVe（验证链）通过规划和执行验证问题来修正初始回答。RECITE则要求模型先背诵相关信息再生成答案。采样方法如事实核采样在句子后半部分减少随机性，以降低幻觉。ITI在推理时调整特定注意力头的激活方向，提升真实性。微调方法包括在训练中加入主题前缀和句子完成损失，以及专门的事实性对齐（FLAME）和事实性微调（Factuality tuning），后者基于DPO优化。归因微调如WebGPT和GopherCite教导模型提供引用，并可能选择不回答低置信度问题。

附录中列出了相关的评估基准，包括TruthfulQA、FactualityPrompt、SelfAware、LongFact、HaDes、FEVER和FAVABench，为研究提供标准化测试。本文发表于2024年7月，是对外部幻觉问题的全面概述。