2025-06-23 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

研究更新：局部体积测量的应用

EleutherAI的研究人员测试了局部体积测量在检测模型失调和异常数据点方面的应用，发现其效果不如其他策略，并转向数据归因研究。

今年早些时候，EleutherAI发表了一项关于估计随机采样神经网络行为概率的新方法，即局部体积测量，并发布了tyche库。研究人员认为局部体积可能有助于检测异常模型行为：深度策略模型在权重微扰下可能表现出更大的行为变化，异常行为在权重噪声下也可能更快退化。因此，他们在两个任务上测试了局部体积测量：检测模型失调和检测异常数据点。

在模型失调检测方面，他们使用了POSER基准，比较了tyche的权重扰动策略与POSER的激活扰动策略。POSER通过向残差流添加随机向量来测量行为差异，而tyche则在参数空间中采样随机方向并缩放至目标KL散度。实验使用CAA基准中的truth-teller（对齐）、genie（对齐）和*-最大化器（失调）模型。结果表明，POSER的激活扰动在较大系数下能有效区分失调模型（失调模型KL散度更大），而tyche的权重扰动下失调模型平均偏离反而略小，区分能力平庸，ROC曲线表现不佳。即使将tyche限制在单层（第15层）以匹配POSER的层选择，结果仍然不同。

在机制性异常检测任务中，他们使用了此前报告的数据集，尝试了两种评分方法：一种是认为局部体积小的数据点为异常，但结果反预测（AUROC仅0.38）；另一种是固定随机向量，计算每个数据点达到目标KL散度所需的范数，再基于马氏距离检测异常，性能也一般（AUROC 0.57）。相比之下，其他方法如激活LOF、激活马氏距离等AUROC在0.73-0.76之间。

总体而言，这些结果使研究人员对局部体积测量在检测模型失调和异常数据点方面的实用性感到悲观。结合之前关于局部体积测量研究归纳偏置的负面结果，他们目前不打算继续这一方向。他们认为，问题的关键在于参数本身是难以解释的复杂压缩，而数据是内在可解释的，因此未来将探索数据归因领域。