AI News HubLIVE
站内改写

忠实还是捏造?针对LLM评判者合理化偏差的因果框架

大型语言模型(LLM)常被用作自动评判者,但研究发现它们存在位置、冗长和风格偏好等偏差。本文提出因果框架,引入一套干预措施和指标,检验LLM评判者是否具备提示不变性,即当非证据性提示被扰动时,其排名和解释是否稳定。实验发现,在标签和安慰剂扰动下,LLM存在显著的提示锚定合理化,而PROOF-BEFORE-PREFERENCE方法能显著改善提示不变性。

文章情报

投资人进阶

要点

  • LLM评判者存在提示锚定合理化偏差,其解释可能受非证据性提示影响。
  • 论文开发了多种提示干预(如盲评、真相、翻转、安慰剂、事后揭示)和指标来量化偏差。
  • 基于1000个摘要的数据集验证,PROOF-BEFORE-PREFERENCE能有效提升评判的提示不变性。

为什么重要

这条新闻值得关注,因为LLM评判者存在提示锚定合理化偏差,其解释可能受非证据性提示影响。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

大型语言模型(LLM)越来越多地被用作自动评判者,用于评估摘要和对话系统的质量。然而,先前研究已经发现这些评判者存在位置偏好、冗长偏好和风格偏好等偏差。但这些研究大多只关注评判结果,对评判解释的可靠性关注不足。本文提出的因果框架旨在回答:LLM评判者是否具备提示不变性?即在保持底层文本不变的情况下,当非证据性提示(如冗长程度、置信度)被扰动时,其排名和解释是否保持稳定?

作者设计了一套提示干预措施,包括盲评(Blind,隐藏提示)、真相(Truth,提供真实标签)、翻转(Flip,颠倒标签)、安慰剂(Placebo,提供虚假标签)和事后揭示(Reveal-After,先评后揭示)。同时,他们引入了感知指标来量化结果锚定(outcome anchoring)和理由锚定(rationale anchoring),包括标签对齐修辞和解释漂移,并辅以一致性和刻板印象入侵检查。

为了测试这些偏差,作者利用冗长和置信度提示设计了锚定攻击(anchoring attacks)。他们比较了两种缓解方法:结构化思维链提示(structured chain-of-thought prompting)和PROOF-BEFORE-PREFERENCE(先证据锁定,再评分,最后排序)。

实验基于一个包含1000个摘要的新数据集,这些摘要来自传统抽取式模型和LLM。结果表明,在标签和安慰剂扰动下,LLM评判者表现出显著的提示锚定合理化:它们的评判解释会随非证据性提示而改变。相比之下,PROOF-BEFORE-PREFERENCE方法在提升提示不变性方面显著优于基线。

这项工作揭示了LLM评判者解释的脆弱性,提示我们需谨慎对待其自动评估结果。未来方向包括将框架扩展到更多提示类型和评估任务,以及开发更鲁棒的评判机制。