2026-05-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

忠實還是捏造？針對LLM評判者合理化偏差的因果框架

大型語言模型（LLM）常被用作自動評判者，但研究發現它們存在位置、冗長和風格偏好等偏差。本文提出因果框架，引入一套干預措施和指標，檢驗LLM評判者是否具備提示不變性，即當非證據性提示被擾動時，其排名和解釋是否穩定。實驗發現，在標籤和安慰劑擾動下，LLM存在顯著的提示錨定合理化，而PROOF-BEFORE-PREFERENCE方法能顯著改善提示不變性。

來源arXiv Computational Linguistics作者: Riya Tapwal, Abhishek Kumar, Carsten Maple

大型語言模型（LLM）越來越多地被用作自動評判者，用於評估摘要和對話系統的質量。然而，先前研究已經發現這些評判者存在位置偏好、冗長偏好和風格偏好等偏差。但這些研究大多隻關注評判結果，對評判解釋的可靠性關注不足。本文提出的因果框架旨在回答：LLM評判者是否具備提示不變性？即在保持底層文本不變的情況下，當非證據性提示（如冗長程度、置信度）被擾動時，其排名和解釋是否保持穩定？

作者設計了一套提示干預措施，包括盲評（Blind，隱藏提示）、真相（Truth，提供真實標籤）、翻轉（Flip，顛倒標籤）、安慰劑（Placebo，提供虛假標籤）和事後揭示（Reveal-After，先評後揭示）。同時，他們引入了感知指標來量化結果錨定（outcome anchoring）和理由錨定（rationale anchoring），包括標籤對齊修辭和解釋漂移，並輔以一致性和刻板印象入侵檢查。

為了測試這些偏差，作者利用冗長和置信度提示設計了錨定攻擊（anchoring attacks）。他們比較了兩種緩解方法：結構化思維鏈提示（structured chain-of-thought prompting）和PROOF-BEFORE-PREFERENCE（先證據鎖定，再評分，最後排序）。

實驗基於一個包含1000個摘要的新資料集，這些摘要來自傳統抽取式模型和LLM。結果表明，在標籤和安慰劑擾動下，LLM評判者表現出顯著的提示錨定合理化：它們的評判解釋會隨非證據性提示而改變。相比之下，PROOF-BEFORE-PREFERENCE方法在提升提示不變性方面顯著優於基線。

這項工作揭示了LLM評判者解釋的脆弱性，提示我們需謹慎對待其自動評估結果。未來方向包括將框架擴充套件到更多提示型別和評估任務，以及開發更魯棒的評判機制。