忠實還是捏造?針對LLM評判者合理化偏差的因果框架
大型語言模型(LLM)常被用作自動評判者,但研究發現它們存在位置、冗長和風格偏好等偏差。本文提出因果框架,引入一套干預措施和指標,檢驗LLM評判者是否具備提示不變性,即當非證據性提示被擾動時,其排名和解釋是否穩定。實驗發現,在標籤和安慰劑擾動下,LLM存在顯著的提示錨定合理化,而PROOF-BEFORE-PREFERENCE方法能顯著改善提示不變性。
文章情報
要點
- LLM評判者存在提示錨定合理化偏差,其解釋可能受非證據性提示影響。
- 論文開發了多種提示干預(如盲評、真相、翻轉、安慰劑、事後揭示)和指標來量化偏差。
- 基於1000個摘要的資料集驗證,PROOF-BEFORE-PREFERENCE能有效提升評判的提示不變性。
為什麼重要
這條新聞值得關注,因為LLM評判者存在提示錨定合理化偏差,其解釋可能受非證據性提示影響。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
大型語言模型(LLM)越來越多地被用作自動評判者,用於評估摘要和對話系統的質量。然而,先前研究已經發現這些評判者存在位置偏好、冗長偏好和風格偏好等偏差。但這些研究大多隻關注評判結果,對評判解釋的可靠性關注不足。本文提出的因果框架旨在回答:LLM評判者是否具備提示不變性?即在保持底層文本不變的情況下,當非證據性提示(如冗長程度、置信度)被擾動時,其排名和解釋是否保持穩定?
作者設計了一套提示干預措施,包括盲評(Blind,隱藏提示)、真相(Truth,提供真實標籤)、翻轉(Flip,顛倒標籤)、安慰劑(Placebo,提供虛假標籤)和事後揭示(Reveal-After,先評後揭示)。同時,他們引入了感知指標來量化結果錨定(outcome anchoring)和理由錨定(rationale anchoring),包括標籤對齊修辭和解釋漂移,並輔以一致性和刻板印象入侵檢查。
為了測試這些偏差,作者利用冗長和置信度提示設計了錨定攻擊(anchoring attacks)。他們比較了兩種緩解方法:結構化思維鏈提示(structured chain-of-thought prompting)和PROOF-BEFORE-PREFERENCE(先證據鎖定,再評分,最後排序)。
實驗基於一個包含1000個摘要的新資料集,這些摘要來自傳統抽取式模型和LLM。結果表明,在標籤和安慰劑擾動下,LLM評判者表現出顯著的提示錨定合理化:它們的評判解釋會隨非證據性提示而改變。相比之下,PROOF-BEFORE-PREFERENCE方法在提升提示不變性方面顯著優於基線。
這項工作揭示了LLM評判者解釋的脆弱性,提示我們需謹慎對待其自動評估結果。未來方向包括將框架擴充套件到更多提示型別和評估任務,以及開發更魯棒的評判機制。