2026-05-25 15:30 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AI模型常給出正確答案卻指向錯誤來源

北京大學研究人員發現，像GPT和Gemini這樣的領先AI模型在文檔分析中經常引用不支持的文本段落，即使答案正確，引用的證據也常常錯誤。他們稱之為“歸因幻覺”，對法律和醫學等監管領域構成風險。新的CiteVQA基準是首個系統測試該問題的工具。

來源The Decoder作者: Jonathan Kemper

近日，北京大學研究人員的一項研究發現，主流AI模型如GPT和Gemini在文檔分析任務中經常引用不相關的文本段落來支持其答案。即使模型給出的答案本身是正確的，它引用的所謂證據卻往往是錯誤的。研究人員將這一現象稱為“歸因幻覺”（attribution hallucination），並指出這在法律、醫學等高度監管的領域尤其危險，因為用户可能基於錯誤引用的資料做出重要決策。

為了系統性地評估這一問題，研究團隊提出了CiteVQA基準測試，這是首個專門針對歸因幻覺設計的評估框架。該基準要求模型在回答視覺問答任務時，不僅要給出答案，還要提供準確的引用來源。初步測試顯示，當前最先進的模型在引用準確性方面存在顯著缺陷。

這項研究凸顯了AI在實際應用中的可靠性挑戰，提示開發者需要改進模型的證據推理能力。