2026-05-25 15:30 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

AI模型常给出正确答案却指向错误来源

北京大学研究人员发现，像GPT和Gemini这样的领先AI模型在文档分析中经常引用不支持的文本段落，即使答案正确，引用的证据也常常错误。他们称之为“归因幻觉”，对法律和医学等监管领域构成风险。新的CiteVQA基准是首个系统测试该问题的工具。

来源The Decoder作者: Jonathan Kemper

近日，北京大学研究人员的一项研究发现，主流AI模型如GPT和Gemini在文档分析任务中经常引用不相关的文本段落来支持其答案。即使模型给出的答案本身是正确的，它引用的所谓证据却往往是错误的。研究人员将这一现象称为“归因幻觉”（attribution hallucination），并指出这在法律、医学等高度监管的领域尤其危险，因为用户可能基于错误引用的资料做出重要决策。

为了系统性地评估这一问题，研究团队提出了CiteVQA基准测试，这是首个专门针对归因幻觉设计的评估框架。该基准要求模型在回答视觉问答任务时，不仅要给出答案，还要提供准确的引用来源。初步测试显示，当前最先进的模型在引用准确性方面存在显著缺陷。

这项研究凸显了AI在实际应用中的可靠性挑战，提示开发者需要改进模型的证据推理能力。