“你説謊了嗎?”評估不同模型規模與信念驗證模型有機體上的謊言檢測器
該研究評估了大型語言模型中的謊言檢測器,創建了13個推理模型有機體(其隱藏信念通過思維鏈驗證),並提出了多樣化欺騙測試牀。在31個模型上測試了四種檢測器,發現所有檢測器在提示性撒謊任務中隨模型能力擴展,但在訓練有機體上,除思維鏈裁判外性能大幅下降。當前檢測器難以對模型信念做出高置信度聲明。
大語言模型(LLM)的謊言檢測器被認為在審計、監控和事後調查模型行為方面具有巨大潛力。然而,評估這些檢測器需要可靠的測試環境——模型必須被證實相信自己所説的話的反面。研究人員發現,現有研究中的訓練模型有機體往往無法滿足這一關鍵要求,導致先前的陽性與陰性檢測結果難以解釋。為了克服這一挑戰,他們精心設計了13個推理模型有機體,這些有機體的隱藏信念通過思維鏈(Chain-of-Thought)過程得到驗證,並表現出對未見過任務的泛化能力。與此同時,他們構建了“多樣化欺騙”(Varied Deception)測試牀,涵蓋了多種促使模型產生欺騙行為的動機,從簡單的指令到複雜的利益衝突場景。
在這兩個測試平台上,研究團隊系統評估了四種謊言檢測方法:基於思維鏈的裁判(CoT judge)、對數概率分類器(logprob classifier)、以及兩種激活探針(activation probes),其中包括一種創新的“Did-You-Lie”(DYL)方法,用於訓練後續跟進探針。在對31個開放權重模型(參數規模從20億到1萬億)進行提示性撒謊測試時,所有四種檢測器的性能均與模型能力呈正相關。然而,當將檢測器應用於經過專門訓練的模型有機體時,除了思維鏈裁判之外,其他所有基於激活和對數概率的檢測器都出現了嚴重的性能衰退,其中DYL保留了最多的信號。只有思維鏈裁判依然表現出色,平衡準確率達到0.82,但這一結果部分歸因於驗證過程更傾向於思維鏈可讀的信念表述。
該研究得出結論,當前的謊言檢測器尚無法支持對模型信念的高置信度聲明。論文提出了若干未來研究方向,旨在解決當前的侷限性,例如設計更精細的探針訓練策略或結合多模態信號。研究團隊還公開了數據集、模型有機體和訓練好的檢測器,為後續研究奠定了堅實的基礎。