AI News HubLIVE
站内改写

从语言模型轨迹中读取校准的不确定性

一种新方法从语言模型的逐层MLP更新中提取11个尺度不变的几何特征,训练稀疏线性探针,在选择性弃权任务中优于最大软最大概率(MSP),收益最高达21个AURC点。

文章情报

工程师进阶

要点

  • 最大软最大概率(MSP)虽简单但常校准不良。
  • 新方法提取11个尺度不变的几何特征,追踪逐层MLP更新路径。
  • 稀疏线性探针在选择性弃权中显著优于MSP,收益随基准校准误差增大。
  • 特征具有封闭形式的几何意义,可解释误差在深度上的形成过程。

为什么重要

这条新闻值得关注,因为最大软最大概率(MSP)虽简单但常校准不良。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

在大型语言模型(LLM)的生成任务中,尤其是涉及结构化输出时,评估模型输出的不确定性至关重要。最常用的方法之一是最大软最大概率(MSP),即取模型输出概率的最大值作为置信度分数。然而,尽管MSP计算成本低廉,它却经常表现出校准不良的问题:高概率输出并不总是代表高准确性,反之亦然。这促使研究者探索更精细的不确定性量化方法。

传统的改进方法通过探测模型内部激活来获取更多信息。这些方法通常将原始隐藏状态输入到不透明的分类器中,但它们的核心局限在于将每一层的激活视为静态快照,忽略了这些表示是如何逐层构建的。事实上,不同的推理路径可能最终收敛到类似的端点,而中间过程所反映的证据积累、增强或反转模式,可能恰恰揭示了最终概率所掩盖的不确定性。

一篇由Aliai Eusebi等六位作者发表于arXiv(编号2605.22864)的论文提出了一种全新的视角:从语言模型的逐层MLP更新轨迹中提取几何特征。具体来说,研究者定义了11个尺度不变的几何特征,这些特征描述了累积的MLP更新路径的形状和变化。例如,路径的长度、曲率、方向一致性等都被纳入考量。这些特征被输入到一个稀疏线性探针(sparse linear probe)中,用于预测模型的不确定性。

实验在选择性弃权(selective abstention)任务上进行:模型可以选择放弃回答那些它不确定的问题。结果表明,基于轨迹特征的探针显著优于MSP,其收益与基线校准误差成正比,最高可提升21个AURC点(AURC是评估选择性预测性能的指标)。更重要的是,由于每个特征都有封闭形式的几何意义,探针的权重可以直观地解释误差的来源:哪些层过早地做出了承诺,哪些层的更新方向与整体趋势相矛盾,以及轨迹最终在何处偏离了正确的终点。

这项工作的意义不仅在于性能提升,还在于其可解释性。它提供了一种新的工具,用于理解语言模型内部如何形成不确定性,以及校准误差如何在深度上逐步累积。未来,该方法有望应用于对可靠性有严格要求的领域,如医疗诊断、自动驾驶和金融风控。论文的代码和数据已公开,供研究社区复现和进一步探索。