2026-06-12站内改写1 分钟阅读更新: 2026-06-12

“你说谎了吗？”评估不同模型规模与信念验证模型有机体上的谎言检测器

该研究评估了大型语言模型中的谎言检测器，创建了13个推理模型有机体（其隐藏信念通过思维链验证），并提出了多样化欺骗测试床。在31个模型上测试了四种检测器，发现所有检测器在提示性撒谎任务中随模型能力扩展，但在训练有机体上，除思维链裁判外性能大幅下降。当前检测器难以对模型信念做出高置信度声明。

来源arXiv AI作者: Alan Cooney, David Africa, Geoffrey Irving

大语言模型（LLM）的谎言检测器被认为在审计、监控和事后调查模型行为方面具有巨大潜力。然而，评估这些检测器需要可靠的测试环境——模型必须被证实相信自己所说的话的反面。研究人员发现，现有研究中的训练模型有机体往往无法满足这一关键要求，导致先前的阳性与阴性检测结果难以解释。为了克服这一挑战，他们精心设计了13个推理模型有机体，这些有机体的隐藏信念通过思维链（Chain-of-Thought）过程得到验证，并表现出对未见过任务的泛化能力。与此同时，他们构建了“多样化欺骗”（Varied Deception）测试床，涵盖了多种促使模型产生欺骗行为的动机，从简单的指令到复杂的利益冲突场景。

在这两个测试平台上，研究团队系统评估了四种谎言检测方法：基于思维链的裁判（CoT judge）、对数概率分类器（logprob classifier）、以及两种激活探针（activation probes），其中包括一种创新的“Did-You-Lie”（DYL）方法，用于训练后续跟进探针。在对31个开放权重模型（参数规模从20亿到1万亿）进行提示性撒谎测试时，所有四种检测器的性能均与模型能力呈正相关。然而，当将检测器应用于经过专门训练的模型有机体时，除了思维链裁判之外，其他所有基于激活和对数概率的检测器都出现了严重的性能衰退，其中DYL保留了最多的信号。只有思维链裁判依然表现出色，平衡准确率达到0.82，但这一结果部分归因于验证过程更倾向于思维链可读的信念表述。

该研究得出结论，当前的谎言检测器尚无法支持对模型信念的高置信度声明。论文提出了若干未来研究方向，旨在解决当前的局限性，例如设计更精细的探针训练策略或结合多模态信号。研究团队还公开了数据集、模型有机体和训练好的检测器，为后续研究奠定了坚实的基础。