LLMが一貫して誤ることを学ぶとき:合成欺瞞の線形表現に関するマルチモデル研究
本研究は、5つのTransformerモデルをLoRAで微調整するマルチモデルパラダイムを導入し、合成欺瞞を調査した。線形プローブは初期層でほぼ完全なAUCで欺瞞を検出し、ロジスティック回帰プローブはMLPプローブを上回り、線形表現仮説を支持する。プローブはドメイン間でほぼ損失なく汎化する。モデルによって表現機構が異なり、Pythia/Llama/Qwenでは表現崩壊、Gemma-2では高次元保存が見られる。これらの結果は、適度な教師あり微調整によってロバストでドメイン不変な欺瞞表現が迅速に定着することを示しており、活性化ベースのモニタリングに示唆を与える。
AI安全性における中心的課題の一つは、モデルが正確な内部表現を維持しながら意図的に誤った出力を生成する「欺瞞的アライメント」である。長期的には戦略的欺瞞が主要な懸念事項であるが、合成欺瞞(不正解に対する直接最適化によって誘発される欺瞞)は、学習された欺瞞の表現基盤を研究するための制御されたテストベッドを提供する。新しい研究では、5つのTransformerモデル(Pythia-1.4B、Gemma-2-2B/9B、Qwen2.5-7B、Llama-3.1-8B)に対してLoRA微調整を施し、同一の質問分布上で誠実変種と欺瞞変種を作成するマルチモデルパラダイムを導入した。
平均プールされた隠れ状態に対して訓練された線形プローブは、4つのアーキテクチャにおいて層1-3の初期段階でほぼ完全なAUC(≥0.99)で合成欺瞞を検出したが、Pythia-1.4Bではピークが0.705にとどまった。ロジスティック回帰プローブは一貫してMLPプローブと同等かそれ以上であり、線形表現仮説を支持する。注目すべき点として、TruthfulQAで訓練されたプローブは、未見のMMLU科目に対してほぼゼロの損失(ΔAUC≈0)で汎化した。後期層の表現はガウスノイズに対して強いロバスト性を示し、特にGemma-2モデルは卓越した安定性を示した。
フィッシャー判別比、実効ランク、重心幾何学、方向安定性、クロスドメインアライメント、キャリブレーション(ECE)などのメカニズム分析により、Pythia/Llama/Qwenにおける表現崩壊とGemma-2における高次元保存という2つの明確に異なるレジームが明らかになった。全モデルにおいて、欺瞞方向はより深い層で徐々に統合され、最適なキャリブレーション(ECE<0.01、Pythiaを除く)は層1-4で達成可能である。これらの結果は、適度な教師あり微調整によってロバストでドメイン不変な欺瞞表現が迅速に定着することを示しており、活性化ベースのモニタリングに重要な示唆を与える。