2026-06-16站内改写2 分鐘閱讀更新: 2026-06-16

良好解釋的定義及解釋LLM輸出的挑戰

本文提出一種基於反事實解釋並考慮對話者先驗信念的良好解釋定義，探討了該定義對AI可解釋性的影響，特別是為何難以對LLM輸出生成良好解釋。

來源arXiv AI作者: Louis Mahon, Elliot Ford, Callum Hackett

長期以來，如何定義“良好解釋”一直是哲學辯論的核心議題，而隨着人工智能輸出的日益普及，這一問題再次引發了學術界的廣泛關注。可解釋性對於AI在醫療、金融、法律等高風險領域的應用至關重要，但若要生成對AI系統的良好解釋，首先必須深刻理解良好解釋的本質。近期，一篇由Louis Mahon等人提交至arXiv的論文（編號2606.14838）提出了一種全新的定義，該定義靈感來源於反事實解釋，但更強調對話者（即接收解釋的人）對每個可能出現在解釋中的事實所持有的先驗信念。

論文指出，傳統的反事實解釋雖然能夠提供因果推理，但往往忽略了用户的已有認知背景。一個真正良好的解釋不僅需要揭示“如果不同輸入會如何導致不同輸出”的因果鏈條，還需要根據解釋接收者的知識水平和預期進行個性化調整。例如，對於一個機器學習專家和一個普通用户，解釋AI決策時應當選擇不同的事實組合，以匹配他們各自的先驗信念。這種以人為本的解釋定義，對當前主流的黑箱模型——尤其是大型語言模型（LLM）——提出了前所未有的挑戰。

作者們深入剖析了LLM難以產生良好解釋的根源。首先，LLM的推理過程高度非線性和複雜，內部狀態難以直接映射到可解釋的因果路徑。傳統的特徵重要性或注意力可視化方法往往只能提供表面洞見，無法捕捉到模型在生成輸出時實際依賴的關鍵反事實信息。其次，LLM通常在海量數據上訓練，其知識表徵分散且重疊，導致任何單一解釋事實都可能與用户的先驗信念存在偏差或衝突。此外，不同用户對同一LLM輸出的理解需求截然不同，甚至同一用户在不同情境下的需求也會變化，這使得定製化解釋變得極為困難。

該研究不僅為AI可解釋性提供了新的理論框架，還揭示了LLM在透明度和可信度方面的固有侷限。論文強調，未來的工作應當致力於將認知科學的前沿成果與機器學習技術深度融合，開發出能夠動態建模用户信念並生成自適應解釋的系統。這或許意味着，我們需要重新思考模型設計本身，從可解釋性角度出發構建更具透明度的神經架構。同時，評估解釋質量的標準也需相應更新，從簡單的準確性度量轉向考慮用户滿意度和信息增益等維度。

儘管面臨諸多挑戰，這項研究為學術界和工業界指明瞭方向：只有當我們學會從人類認知的角度去解釋AI，才能最終贏得用户的信任，推動人工智能的負責任部署。該論文於2026年6月12日提交，目前全文可在arXiv上獲取，並已通過DataCite註冊DOI（待定）。