语言模型是如何失败的:承诺性失败与持续性推理失败的词元级特征
该研究通过词元级不确定性信号识别语言模型推理失败的两种不同过程:承诺性失败(模型早期锁定错误路径)和持续性不确定(不确定性持续累积)。框架在23个模型-数据集配置中验证,20例通过可证伪预测,并展示了对自一致性方法的改进。
arXiv预印本2606.06635号论文于2026年6月4日提交,作者包括Tanvi Thoria等四位研究者。该研究提出了一种基于词元级不确定性信号的新框架,用于识别和分类大型语言模型在推理过程中出现的失败模式。研究人员发现,语言模型的推理失败并非单一现象,而是可以通过两种不同的过程来区分:承诺性失败和持续性不确定。
承诺性失败指的是模型在推理的早期阶段就锁定了一条错误的推理路径,其核心诊断标志是所谓的“承诺点”。一旦超过这个承诺点,继续生成或考虑更多的词元不仅无助于检测失败,反而会干扰检测的准确性。这意味着,对于这类失败,最优的检测策略是在承诺点之前就进行干预,而不是依赖后续的推理内容。
相比之下,持续性不确定则表现为模型在整个推理过程中始终保留着较高的不确定性,这种不确定性随着推理的进行而累积。因此,对于持续性不确定的情况,只有完整的推理轨迹才能最好地区分一次推理是成功还是失败。模型在推理的每一步都表现出不自信,需要观察其最终输出才能做出可靠判断。
该框架在23种不同的模型与数据集组合上进行了验证,涵盖了多种主流的大型语言模型架构和推理任务。其可证伪的预测在20个案例中成立,显著高于随机水平,证明了该分类方法的有效性和泛化能力。研究还发现,这两种失败模式在不同模型和数据集之间表现出一致的行为模式,表明它们可能源于模型推理的固有机制。
此外,研究展示了该失败模式框架对自一致性方法的直接影响。自一致性是一种常用的提高LLM推理可靠性的技术,它通过多次采样并选择最一致的答案来降低错误率。本研究表明,在承诺性失败的情况下,由于模型已经锁定错误路径,多次采样往往得到相同的错误答案,因此自一致性可能无效;而在持续性不确定的情况下,不确定性信号可以补充自一致性,帮助筛选更可靠的输出。该框架能够识别何时不确定性信号可以作为自一致性的补充,以及何时可以有意跳过自一致性步骤以节省计算资源。
这些结果为理解何时能够检测到大型语言模型的推理失败以及如何相应地调整检测策略提供了重要的基础。未来,该方法有望集成到LLM的推理监控系统中,帮助开发者和用户更好地识别不可靠的推理输出,从而提高AI系统的安全性和可靠性。论文主题涉及计算与语言以及人工智能领域,目前可在arXiv上获取全文。