2026-06-16站内改写2 分钟阅读更新: 2026-06-16

良好解释的定义及解释LLM输出的挑战

本文提出一种基于反事实解释并考虑对话者先验信念的良好解释定义，探讨了该定义对AI可解释性的影响，特别是为何难以对LLM输出生成良好解释。

来源arXiv AI作者: Louis Mahon, Elliot Ford, Callum Hackett

长期以来，如何定义“良好解释”一直是哲学辩论的核心议题，而随着人工智能输出的日益普及，这一问题再次引发了学术界的广泛关注。可解释性对于AI在医疗、金融、法律等高风险领域的应用至关重要，但若要生成对AI系统的良好解释，首先必须深刻理解良好解释的本质。近期，一篇由Louis Mahon等人提交至arXiv的论文（编号2606.14838）提出了一种全新的定义，该定义灵感来源于反事实解释，但更强调对话者（即接收解释的人）对每个可能出现在解释中的事实所持有的先验信念。

论文指出，传统的反事实解释虽然能够提供因果推理，但往往忽略了用户的已有认知背景。一个真正良好的解释不仅需要揭示“如果不同输入会如何导致不同输出”的因果链条，还需要根据解释接收者的知识水平和预期进行个性化调整。例如，对于一个机器学习专家和一个普通用户，解释AI决策时应当选择不同的事实组合，以匹配他们各自的先验信念。这种以人为本的解释定义，对当前主流的黑箱模型——尤其是大型语言模型（LLM）——提出了前所未有的挑战。

作者们深入剖析了LLM难以产生良好解释的根源。首先，LLM的推理过程高度非线性和复杂，内部状态难以直接映射到可解释的因果路径。传统的特征重要性或注意力可视化方法往往只能提供表面洞见，无法捕捉到模型在生成输出时实际依赖的关键反事实信息。其次，LLM通常在海量数据上训练，其知识表征分散且重叠，导致任何单一解释事实都可能与用户的先验信念存在偏差或冲突。此外，不同用户对同一LLM输出的理解需求截然不同，甚至同一用户在不同情境下的需求也会变化，这使得定制化解释变得极为困难。

该研究不仅为AI可解释性提供了新的理论框架，还揭示了LLM在透明度和可信度方面的固有局限。论文强调，未来的工作应当致力于将认知科学的前沿成果与机器学习技术深度融合，开发出能够动态建模用户信念并生成自适应解释的系统。这或许意味着，我们需要重新思考模型设计本身，从可解释性角度出发构建更具透明度的神经架构。同时，评估解释质量的标准也需相应更新，从简单的准确性度量转向考虑用户满意度和信息增益等维度。

尽管面临诸多挑战，这项研究为学术界和工业界指明了方向：只有当我们学会从人类认知的角度去解释AI，才能最终赢得用户的信任，推动人工智能的负责任部署。该论文于2026年6月12日提交，目前全文可在arXiv上获取，并已通过DataCite注册DOI（待定）。