AI News HubLIVE
站内改写

AI模型常给出正确答案却指向错误来源

北京大学研究人员发现,像GPT和Gemini这样的领先AI模型在文档分析中经常引用不支持的文本段落,即使答案正确,引用的证据也常常错误。他们称之为“归因幻觉”,对法律和医学等监管领域构成风险。新的CiteVQA基准是首个系统测试该问题的工具。

文章情报

工程师进阶

要点

  • AI模型在文档分析中常引用不支持的证据,导致“归因幻觉”
  • 即使答案正确,引用的文本段落也常错误
  • 北京大学研究人员提出CiteVQA基准来系统测试该问题
  • 这对法律和医学等监管领域尤为重要

为什么重要

这条新闻值得关注,因为AI模型在文档分析中常引用不支持的证据,导致“归因幻觉”。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

近日,北京大学研究人员的一项研究发现,主流AI模型如GPT和Gemini在文档分析任务中经常引用不相关的文本段落来支持其答案。即使模型给出的答案本身是正确的,它引用的所谓证据却往往是错误的。研究人员将这一现象称为“归因幻觉”(attribution hallucination),并指出这在法律、医学等高度监管的领域尤其危险,因为用户可能基于错误引用的资料做出重要决策。

为了系统性地评估这一问题,研究团队提出了CiteVQA基准测试,这是首个专门针对归因幻觉设计的评估框架。该基准要求模型在回答视觉问答任务时,不仅要给出答案,还要提供准确的引用来源。初步测试显示,当前最先进的模型在引用准确性方面存在显著缺陷。

这项研究凸显了AI在实际应用中的可靠性挑战,提示开发者需要改进模型的证据推理能力。