2026-05-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

忠实还是捏造？针对LLM评判者合理化偏差的因果框架

大型语言模型（LLM）常被用作自动评判者，但研究发现它们存在位置、冗长和风格偏好等偏差。本文提出因果框架，引入一套干预措施和指标，检验LLM评判者是否具备提示不变性，即当非证据性提示被扰动时，其排名和解释是否稳定。实验发现，在标签和安慰剂扰动下，LLM存在显著的提示锚定合理化，而PROOF-BEFORE-PREFERENCE方法能显著改善提示不变性。

来源arXiv Computational Linguistics作者: Riya Tapwal, Abhishek Kumar, Carsten Maple

大型语言模型（LLM）越来越多地被用作自动评判者，用于评估摘要和对话系统的质量。然而，先前研究已经发现这些评判者存在位置偏好、冗长偏好和风格偏好等偏差。但这些研究大多只关注评判结果，对评判解释的可靠性关注不足。本文提出的因果框架旨在回答：LLM评判者是否具备提示不变性？即在保持底层文本不变的情况下，当非证据性提示（如冗长程度、置信度）被扰动时，其排名和解释是否保持稳定？

作者设计了一套提示干预措施，包括盲评（Blind，隐藏提示）、真相（Truth，提供真实标签）、翻转（Flip，颠倒标签）、安慰剂（Placebo，提供虚假标签）和事后揭示（Reveal-After，先评后揭示）。同时，他们引入了感知指标来量化结果锚定（outcome anchoring）和理由锚定（rationale anchoring），包括标签对齐修辞和解释漂移，并辅以一致性和刻板印象入侵检查。

为了测试这些偏差，作者利用冗长和置信度提示设计了锚定攻击（anchoring attacks）。他们比较了两种缓解方法：结构化思维链提示（structured chain-of-thought prompting）和PROOF-BEFORE-PREFERENCE（先证据锁定，再评分，最后排序）。

实验基于一个包含1000个摘要的新数据集，这些摘要来自传统抽取式模型和LLM。结果表明，在标签和安慰剂扰动下，LLM评判者表现出显著的提示锚定合理化：它们的评判解释会随非证据性提示而改变。相比之下，PROOF-BEFORE-PREFERENCE方法在提升提示不变性方面显著优于基线。

这项工作揭示了LLM评判者解释的脆弱性，提示我们需谨慎对待其自动评估结果。未来方向包括将框架扩展到更多提示类型和评估任务，以及开发更鲁棒的评判机制。