2026-05-11 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

思考越多，偏見越多：推理模型中長度驅動的立場偏差

該論文挑戰了鏈式思維推理能減少偏見的普遍假設，透過實驗表明在多選題中，推理軌跡越長，立場偏差（位置偏好）越嚴重。研究涵蓋13種配置，發現12種顯示軌跡長度與立場偏差分數正相關，截斷實驗證明因果關係，且671B引數的DeepSeek-R1雖整體偏差低，但長軌跡下仍存在偏差。此外，直接回答的立場偏差是獨立現象。論文建議不應預設推理模型對選項順序魯棒，並提供了診斷工具包。

來源arXiv AI作者: Xiao Wang

一篇新研究論文揭示了推理模型中的一個反直覺現象：思考越多，偏見反而越深。該研究題為“More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models”，針對鏈式思維（Chain-of-Thought, CoT）推理及經過推理調優的模型（如DeepSeek-R1）進行了系統分析。

通常認為，CoT推理透過引導模型逐步思考，能夠減少基於快速啟發式的淺層偏見。然而，本研究在多項選擇題（MCQ）的立場偏差測試中發現了截然不同的結果：在任意具備推理能力的模型內，每個問題的立場偏差程度與推理軌跡的長度成正比。

研究團隊在MMLU、ARC-Challenge和GPQA等基準測試上，對13種推理模式配置（包括兩種R1蒸餾7-8B模型、兩種以CoT提示的基礎模型，以及671B引數的DeepSeek-R1）進行了評估。其中12種配置在控制準確率後，軌跡長度與立場偏差分數（Position Bias Score, PBS）之間存在正相關，相關係數範圍在0.11至0.41之間（p值均小於0.05）。所有12種開源推理模式配置均顯示出PBS隨軌跡長度四分位數單調遞增的趨勢。

關鍵的截斷干預實驗提供了因果證據：當從軌跡較後階段繼續推理時，模型轉向位置偏好選項的機率顯著增加。以R1-Qwen-7B為例，不同絕對位置桶上的轉變機率從16%升至32%。值得注意的是，671B級DeepSeek-R1的整體PBS降至0.019，但長軌跡效應仍在最長四分位中顯現（PBS=0.071），表明準確率抑制了長度驅動偏差的表達，但並未消除其潛在機制。

此外，研究還發現直接回答中的立場偏差是一個獨立現象，其表現模式不同（在Llama-Instruct-direct中強，在Qwen-Instruct-direct中弱，且與軌跡長度無關）。CoT推理實際上用長度累積的偏差替代了這種基線偏差。

這些結果有力地表明，在MCQ評估流程中，不應預設推理模型對選項順序魯棒。為此，研究團隊提供了一套診斷工具包，包括PBS、承諾變化點（commitment change point）、有效切換（effective switching）和截斷探針（truncation probes），用於審計推理模型中的立場偏差。