2026-05-25 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

从语言模型轨迹中读取校准的不确定性

一种新方法从语言模型的逐层MLP更新中提取11个尺度不变的几何特征，训练稀疏线性探针，在选择性弃权任务中优于最大软最大概率（MSP），收益最高达21个AURC点。

来源arXiv Machine Learning作者: Aliai Eusebi, Alexander Herzog, Xiaoyu Liang, Marie Vasek, Enrico Mariconti, Lorenzo Cavallaro

在大型语言模型（LLM）的生成任务中，尤其是涉及结构化输出时，评估模型输出的不确定性至关重要。最常用的方法之一是最大软最大概率（MSP），即取模型输出概率的最大值作为置信度分数。然而，尽管MSP计算成本低廉，它却经常表现出校准不良的问题：高概率输出并不总是代表高准确性，反之亦然。这促使研究者探索更精细的不确定性量化方法。

传统的改进方法通过探测模型内部激活来获取更多信息。这些方法通常将原始隐藏状态输入到不透明的分类器中，但它们的核心局限在于将每一层的激活视为静态快照，忽略了这些表示是如何逐层构建的。事实上，不同的推理路径可能最终收敛到类似的端点，而中间过程所反映的证据积累、增强或反转模式，可能恰恰揭示了最终概率所掩盖的不确定性。

一篇由Aliai Eusebi等六位作者发表于arXiv（编号2605.22864）的论文提出了一种全新的视角：从语言模型的逐层MLP更新轨迹中提取几何特征。具体来说，研究者定义了11个尺度不变的几何特征，这些特征描述了累积的MLP更新路径的形状和变化。例如，路径的长度、曲率、方向一致性等都被纳入考量。这些特征被输入到一个稀疏线性探针（sparse linear probe）中，用于预测模型的不确定性。

实验在选择性弃权（selective abstention）任务上进行：模型可以选择放弃回答那些它不确定的问题。结果表明，基于轨迹特征的探针显著优于MSP，其收益与基线校准误差成正比，最高可提升21个AURC点（AURC是评估选择性预测性能的指标）。更重要的是，由于每个特征都有封闭形式的几何意义，探针的权重可以直观地解释误差的来源：哪些层过早地做出了承诺，哪些层的更新方向与整体趋势相矛盾，以及轨迹最终在何处偏离了正确的终点。

这项工作的意义不仅在于性能提升，还在于其可解释性。它提供了一种新的工具，用于理解语言模型内部如何形成不确定性，以及校准误差如何在深度上逐步累积。未来，该方法有望应用于对可靠性有严格要求的领域，如医疗诊断、自动驾驶和金融风控。论文的代码和数据已公开，供研究社区复现和进一步探索。