2025-06-23 09:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

研究アップデート：局所体積測定の応用

EleutherAIの研究者は、局所体積測定をモデルのミスアライメント検出や異常データポイント検出に応用するテストを行い、他の手法に劣る結果を得たため、データ帰属研究へと方向転換した。

ソースEleutherAI Blog

記事インテリジェンス

投資家上級

要点

局所体積測定は、重みにランダムノイズを加え、行動変化を測定する手法。
POSERベンチマークでは、重み摂動は活性化摂動よりもミスアライメント検出効果が大幅に低かった。
メカニスティック異常検出でも性能は平凡で、AUROCは0.38～0.57。
この方向性を断念し、データ帰属に注力する。

重要な理由

このニュースが重要なのは、局所体積測定は、重みにランダムノイズを加え、行動変化を測定する手法ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

今年初め、EleutherAIはランダムにニューラルネットワークをサンプリングした際の行動確率を推定する新しい手法、局所体積測定を発表し、tycheライブラリを公開しました。研究者らは、局所体積が異常なモデル行動の検出に役立つ可能性があると考えました。深く戦略を練るモデルは小さな重み摂動に対して大きな行動変化を示す可能性があり、異常行動は重みノイズ下でより急速に劣化する可能性があるためです。そこで、モデルのミスアライメント検出と異常データポイント検出の2つのタスクで局所体積測定をテストしました。

ミスアライメント検出では、POSERベンチマークを使用し、tycheの重み摂動戦略とPOSERの活性化摂動戦略を比較しました。POSERは残差ストリームにランダムベクトルを追加して行動の違いを測定するのに対し、tycheはパラメータ空間でランダムな方向をサンプリングし、目標KLダイバージェンスにスケーリングします。実験ではCAAベンチマークからtruth-teller（アライン）、genie（アライン）、*-maximizer（ミスアライン）モデルを使用しました。結果、POSERの活性化摂動は大きな係数でミスアラインとアラインモデルを効果的に区別できたのに対し（ミスアラインモデルのKLダイバージェンスが大きい）、tycheの重み摂動ではミスアラインモデルの平均偏差がわずかに小さく、識別能力は平凡でROC曲線も不良でした。摂動を単一層（15層）に制限してPOSERの層選択に合わせても、結果は大きく異なりました。

メカニスティック異常検出タスクでは、以前報告したデータセットを使用し、2つのスコアリング方法を試しました。1つ目は局所体積が小さいデータポイントを異常とする方法で、逆予測的（AUROC 0.38）でした。2つ目は固定ランダムベクトルを使用し、各データポイントが目標KLダイバージェンスに達するのに必要なノルムを計算し、マハラノビス距離で異常を検出する方法で、性能は平凡（AUROC 0.57）でした。他の手法（活性化LOF、活性化マハラノビスなど）はAUROC 0.73～0.76を示しました。

全体として、これらの結果は局所体積測定の有用性に対して悲観的な見方を強めました。以前の帰納的バイアス研究での否定的結果と合わせ、研究者らはこの方向性を追求しないことを決定しました。高レベルでは、局所体積測定はパラメータ摂動に対するモデル行動の感度を測定する試みですが、パラメータは本質的に解釈不可能な複雑な圧縮であり、データは本質的に解釈可能です。そのため、今後はデータ帰属の分野を探求する予定です。