2025-06-23 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

研究更新：局部體積測量的應用

EleutherAI的研究人員測試了局部體積測量在檢測模型失調和異常數據點方面的應用，發現其效果不如其他策略，並轉向數據歸因研究。

今年早些時候，EleutherAI發表了一項關於估計隨機採樣神經網絡行為概率的新方法，即局部體積測量，併發布了tyche庫。研究人員認為局部體積可能有助於檢測異常模型行為：深度策略模型在權重微擾下可能表現出更大的行為變化，異常行為在權重噪聲下也可能更快退化。因此，他們在兩個任務上測試了局部體積測量：檢測模型失調和檢測異常數據點。

在模型失調檢測方面，他們使用了POSER基準，比較了tyche的權重擾動策略與POSER的激活擾動策略。POSER通過向殘差流添加隨機向量來測量行為差異，而tyche則在參數空間中採樣隨機方向並縮放至目標KL散度。實驗使用CAA基準中的truth-teller（對齊）、genie（對齊）和*-最大化器（失調）模型。結果表明，POSER的激活擾動在較大系數下能有效區分失調模型（失調模型KL散度更大），而tyche的權重擾動下失調模型平均偏離反而略小，區分能力平庸，ROC曲線表現不佳。即使將tyche限制在單層（第15層）以匹配POSER的層選擇，結果仍然不同。

在機制性異常檢測任務中，他們使用了此前報告的數據集，嘗試了兩種評分方法：一種是認為局部體積小的數據點為異常，但結果反預測（AUROC僅0.38）；另一種是固定隨機向量，計算每個數據點達到目標KL散度所需的範數，再基於馬氏距離檢測異常，性能也一般（AUROC 0.57）。相比之下，其他方法如激活LOF、激活馬氏距離等AUROC在0.73-0.76之間。

總體而言，這些結果使研究人員對局部體積測量在檢測模型失調和異常數據點方面的實用性感到悲觀。結合之前關於局部體積測量研究歸納偏置的負面結果，他們目前不打算繼續這一方向。他們認為，問題的關鍵在於參數本身是難以解釋的複雜壓縮，而數據是內在可解釋的，因此未來將探索數據歸因領域。