AI News HubLIVE
サイト内リライト2 分で読了

研究アップデート:局所体積測定の応用

EleutherAIの研究者は、局所体積測定をモデルのミスアライメント検出や異常データポイント検出に応用するテストを行い、他の手法に劣る結果を得たため、データ帰属研究へと方向転換した。

今年初め、EleutherAIはランダムにニューラルネットワークをサンプリングした際の行動確率を推定する新しい手法、局所体積測定を発表し、tycheライブラリを公開しました。研究者らは、局所体積が異常なモデル行動の検出に役立つ可能性があると考えました。深く戦略を練るモデルは小さな重み摂動に対して大きな行動変化を示す可能性があり、異常行動は重みノイズ下でより急速に劣化する可能性があるためです。そこで、モデルのミスアライメント検出と異常データポイント検出の2つのタスクで局所体積測定をテストしました。

ミスアライメント検出では、POSERベンチマークを使用し、tycheの重み摂動戦略とPOSERの活性化摂動戦略を比較しました。POSERは残差ストリームにランダムベクトルを追加して行動の違いを測定するのに対し、tycheはパラメータ空間でランダムな方向をサンプリングし、目標KLダイバージェンスにスケーリングします。実験ではCAAベンチマークからtruth-teller(アライン)、genie(アライン)、*-maximizer(ミスアライン)モデルを使用しました。結果、POSERの活性化摂動は大きな係数でミスアラインとアラインモデルを効果的に区別できたのに対し(ミスアラインモデルのKLダイバージェンスが大きい)、tycheの重み摂動ではミスアラインモデルの平均偏差がわずかに小さく、識別能力は平凡でROC曲線も不良でした。摂動を単一層(15層)に制限してPOSERの層選択に合わせても、結果は大きく異なりました。

メカニスティック異常検出タスクでは、以前報告したデータセットを使用し、2つのスコアリング方法を試しました。1つ目は局所体積が小さいデータポイントを異常とする方法で、逆予測的(AUROC 0.38)でした。2つ目は固定ランダムベクトルを使用し、各データポイントが目標KLダイバージェンスに達するのに必要なノルムを計算し、マハラノビス距離で異常を検出する方法で、性能は平凡(AUROC 0.57)でした。他の手法(活性化LOF、活性化マハラノビスなど)はAUROC 0.73~0.76を示しました。

全体として、これらの結果は局所体積測定の有用性に対して悲観的な見方を強めました。以前の帰納的バイアス研究での否定的結果と合わせ、研究者らはこの方向性を追求しないことを決定しました。高レベルでは、局所体積測定はパラメータ摂動に対するモデル行動の感度を測定する試みですが、パラメータは本質的に解釈不可能な複雑な圧縮であり、データは本質的に解釈可能です。そのため、今後はデータ帰属の分野を探求する予定です。