2026-05-11 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

思考越多，偏见越多：推理模型中长度驱动的立场偏差

该论文挑战了链式思维推理能减少偏见的普遍假设，通过实验表明在多选题中，推理轨迹越长，立场偏差（位置偏好）越严重。研究涵盖13种配置，发现12种显示轨迹长度与立场偏差分数正相关，截断实验证明因果关系，且671B参数的DeepSeek-R1虽整体偏差低，但长轨迹下仍存在偏差。此外，直接回答的立场偏差是独立现象。论文建议不应默认推理模型对选项顺序鲁棒，并提供了诊断工具包。

来源arXiv AI作者: Xiao Wang

一篇新研究论文揭示了推理模型中的一个反直觉现象：思考越多，偏见反而越深。该研究题为“More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models”，针对链式思维（Chain-of-Thought, CoT）推理及经过推理调优的模型（如DeepSeek-R1）进行了系统分析。

通常认为，CoT推理通过引导模型逐步思考，能够减少基于快速启发式的浅层偏见。然而，本研究在多项选择题（MCQ）的立场偏差测试中发现了截然不同的结果：在任意具备推理能力的模型内，每个问题的立场偏差程度与推理轨迹的长度成正比。

研究团队在MMLU、ARC-Challenge和GPQA等基准测试上，对13种推理模式配置（包括两种R1蒸馏7-8B模型、两种以CoT提示的基础模型，以及671B参数的DeepSeek-R1）进行了评估。其中12种配置在控制准确率后，轨迹长度与立场偏差分数（Position Bias Score, PBS）之间存在正相关，相关系数范围在0.11至0.41之间（p值均小于0.05）。所有12种开源推理模式配置均显示出PBS随轨迹长度四分位数单调递增的趋势。

关键的截断干预实验提供了因果证据：当从轨迹较后阶段继续推理时，模型转向位置偏好选项的概率显著增加。以R1-Qwen-7B为例，不同绝对位置桶上的转变概率从16%升至32%。值得注意的是，671B级DeepSeek-R1的整体PBS降至0.019，但长轨迹效应仍在最长四分位中显现（PBS=0.071），表明准确率抑制了长度驱动偏差的表达，但并未消除其潜在机制。

此外，研究还发现直接回答中的立场偏差是一个独立现象，其表现模式不同（在Llama-Instruct-direct中强，在Qwen-Instruct-direct中弱，且与轨迹长度无关）。CoT推理实际上用长度累积的偏差替代了这种基线偏差。

这些结果有力地表明，在MCQ评估流程中，不应默认推理模型对选项顺序鲁棒。为此，研究团队提供了一套诊断工具包，包括PBS、承诺变化点（commitment change point）、有效切换（effective switching）和截断探针（truncation probes），用于审计推理模型中的立场偏差。