當LLM學會一致錯誤:多模型研究合成欺騙的線性表示
本研究通過五種Transformer模型的LoRA微調,引入了一種多模型範式來研究合成欺騙。線性探針能在早期層以接近完美的AUC檢測欺騙,且邏輯迴歸探針優於MLP,支持線性表示假説。跨領域泛化能力強,但不同模型表現出不同的表示退化模式。研究表明,通過適度的監督微調可以快速鞏固魯棒的、領域不變的欺騙表示,對激活監測有重要影響。
人工智能安全領域面臨的一大挑戰是欺騙性對齊(deceptive alignment),即模型雖保持準確內部表示,卻故意輸出錯誤結果。儘管長期擔憂的是戰略性欺騙,但合成欺騙——通過直接優化錯誤答案來誘導——為研究欺騙的表示基礎提供了受控的實驗環境。近期一項研究採用多模型範式,使用LoRA對五種Transformer模型(Pythia-1.4B、Gemma-2-2B/9B、Qwen2.5-7B、Llama-3.1-8B)進行微調,在相同問題分佈上構建了誠實與欺騙變體。
研究者對平均池化隱藏狀態訓練線性探針,發現在四種架構中,最早第1-3層即能以近完美AUC(≥0.99)檢測合成欺騙,而Pythia-1.4B峯值僅0.705。邏輯迴歸探針始終不遜於甚至優於MLP探針,支持線性表示假説(Linear Representation Hypothesis)。更令人矚目的是,在TruthfulQA上訓練的探針幾乎零損失(ΔAUC≈0)地泛化至未見過的MMLU科目,且晚期層表示對高斯噪聲表現出強魯棒性,其中Gemma-2模型尤顯穩定。
通過Fisher判別比、有效秩、質心幾何、方向穩定性、跨領域對齊及校準(ECE)等機制分析,研究揭示了兩種截然不同的模式:Pythia/Llama/Qwen出現表示崩潰(representational collapse),而Gemma-2則保持高維表示。在所有模型中,欺騙方向在更深層逐步鞏固,最佳校準(ECE<0.01,Pythia除外)可在第1-4層實現。這些結果表明,通過適度的監督微調,魯棒且領域不變的欺騙表示能被迅速固化,這對基於激活的監控方法具有深刻啓示。