2024-07-07 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

大型語言模型中的外部幻覺

本文由Lilian Weng撰寫，深入探討了大型語言模型（LLM）中的外部幻覺問題，即模型生成不基於上下文或世界知識的虛假內容。文章分析了幻覺的成因，包括預訓練數據缺陷和微調新知識的風險，介紹了檢索增強評估、採樣一致性檢測等幻覺檢測方法，並綜述了檢索增強生成、驗證鏈、採樣調整、事實性微調等抗幻覺技術。

來源Lilian Weng

大型語言模型（LLM）中的幻覺問題通常指模型生成不真實、虛構、不一致或無意義的內容。本文作者Lilian Weng將焦點縮小到外部幻覺，即模型輸出完全虛構且不基於任何上下文或世界知識。外部幻覺與上下文幻覺不同，後者要求模型輸出與輸入上下文一致。要避免外部幻覺，LLM需要確保輸出事實正確，並在不知道答案時予以承認。

幻覺的成因主要來自預訓練數據和微調階段。預訓練數據通常從互聯網爬取，包含過時、缺失或錯誤的信息，模型通過最大化對數似然可能錯誤地記憶這些信息。微調階段引入新知識也可能導致幻覺。Gekhman等人（2024）的研究表明，LLM學習包含新知識的微調示例速度較慢，一旦學會，會增加模型產生幻覺的傾向。他們通過封閉式問答數據集將示例分為已知和未知類別，發現未知示例學習更慢，最佳開發性能出現在模型學習大多數已知示例但僅少量未知示例時。

檢測幻覺的方法包括檢索增強評估和基於採樣的技術。檢索增強評估利用外部知識庫驗證模型輸出的真實性，例如FactualityPrompt基準使用維基百科文檔作為標準，通過命名實體錯誤和藴含比率評估幻覺。FActScore將長文本分解為原子事實，並逐一與知識庫比對，計算事實精度。SAFE方法則利用語言模型作為智能體，通過谷歌搜索迭代驗證事實。FacTool遵循標準的事實核查流程，適用於多種任務。基於採樣的檢測如SelfCheckGPT，通過比較多次隨機採樣輸出的一致性來檢測幻覺，無需外部知識庫。此外，還有針對未知知識校準的研究，如TruthfulQA和SelfAware基準，以及通過模型輸出不確定性或間接查詢來評估模型對自身知識邊界的認知。

抗幻覺方法涵蓋檢索增強生成（RAG）、行動鏈、採樣調整和微調。RARR和FAVA通過檢索外部文檔並編輯輸出以增強歸因。Self-RAG訓練模型自我反思，在生成過程中決定何時檢索並評估檢索結果。CoVe（驗證鏈）通過規劃和執行驗證問題來修正初始回答。RECITE則要求模型先背誦相關信息再生成答案。採樣方法如事實核採樣在句子後半部分減少隨機性，以降低幻覺。ITI在推理時調整特定注意力頭的激活方向，提升真實性。微調方法包括在訓練中加入主題前綴和句子完成損失，以及專門的事實性對齊（FLAME）和事實性微調（Factuality tuning），後者基於DPO優化。歸因微調如WebGPT和GopherCite教導模型提供引用，並可能選擇不回答低置信度問題。

附錄中列出了相關的評估基準，包括TruthfulQA、FactualityPrompt、SelfAware、LongFact、HaDes、FEVER和FAVABench，為研究提供標準化測試。本文發表於2024年7月，是對外部幻覺問題的全面概述。