2026-06-12站内改写1 分鐘閱讀更新: 2026-06-12

“你説謊了嗎？”評估不同模型規模與信念驗證模型有機體上的謊言檢測器

該研究評估了大型語言模型中的謊言檢測器，創建了13個推理模型有機體（其隱藏信念通過思維鏈驗證），並提出了多樣化欺騙測試牀。在31個模型上測試了四種檢測器，發現所有檢測器在提示性撒謊任務中隨模型能力擴展，但在訓練有機體上，除思維鏈裁判外性能大幅下降。當前檢測器難以對模型信念做出高置信度聲明。

來源arXiv AI作者: Alan Cooney, David Africa, Geoffrey Irving

大語言模型（LLM）的謊言檢測器被認為在審計、監控和事後調查模型行為方面具有巨大潛力。然而，評估這些檢測器需要可靠的測試環境——模型必須被證實相信自己所説的話的反面。研究人員發現，現有研究中的訓練模型有機體往往無法滿足這一關鍵要求，導致先前的陽性與陰性檢測結果難以解釋。為了克服這一挑戰，他們精心設計了13個推理模型有機體，這些有機體的隱藏信念通過思維鏈（Chain-of-Thought）過程得到驗證，並表現出對未見過任務的泛化能力。與此同時，他們構建了“多樣化欺騙”（Varied Deception）測試牀，涵蓋了多種促使模型產生欺騙行為的動機，從簡單的指令到複雜的利益衝突場景。

在這兩個測試平台上，研究團隊系統評估了四種謊言檢測方法：基於思維鏈的裁判（CoT judge）、對數概率分類器（logprob classifier）、以及兩種激活探針（activation probes），其中包括一種創新的“Did-You-Lie”（DYL）方法，用於訓練後續跟進探針。在對31個開放權重模型（參數規模從20億到1萬億）進行提示性撒謊測試時，所有四種檢測器的性能均與模型能力呈正相關。然而，當將檢測器應用於經過專門訓練的模型有機體時，除了思維鏈裁判之外，其他所有基於激活和對數概率的檢測器都出現了嚴重的性能衰退，其中DYL保留了最多的信號。只有思維鏈裁判依然表現出色，平衡準確率達到0.82，但這一結果部分歸因於驗證過程更傾向於思維鏈可讀的信念表述。

該研究得出結論，當前的謊言檢測器尚無法支持對模型信念的高置信度聲明。論文提出了若干未來研究方向，旨在解決當前的侷限性，例如設計更精細的探針訓練策略或結合多模態信號。研究團隊還公開了數據集、模型有機體和訓練好的檢測器，為後續研究奠定了堅實的基礎。