思考越多,偏见越多:推理模型中长度驱动的立场偏差
该论文挑战了链式思维推理能减少偏见的普遍假设,通过实验表明在多选题中,推理轨迹越长,立场偏差(位置偏好)越严重。研究涵盖13种配置,发现12种显示轨迹长度与立场偏差分数正相关,截断实验证明因果关系,且671B参数的DeepSeek-R1虽整体偏差低,但长轨迹下仍存在偏差。此外,直接回答的立场偏差是独立现象。论文建议不应默认推理模型对选项顺序鲁棒,并提供了诊断工具包。
文章情报
要点
- 推理轨迹长度与立场偏差分数正相关,控制准确率后仍显著。
- 截断实验表明,从轨迹后期继续推理会增加选择位置偏好选项的概率(16%-32%)。
- DeepSeek-R1 (671B) 整体偏差低,但最长四分位轨迹仍有明显偏差(PBS=0.071)。
- 直接回答的立场偏差与长度驱动的偏差是两种不同现象。
为什么重要
这条新闻值得关注,因为推理轨迹长度与立场偏差分数正相关,控制准确率后仍显著。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
一篇新研究论文揭示了推理模型中的一个反直觉现象:思考越多,偏见反而越深。该研究题为“More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models”,针对链式思维(Chain-of-Thought, CoT)推理及经过推理调优的模型(如DeepSeek-R1)进行了系统分析。
通常认为,CoT推理通过引导模型逐步思考,能够减少基于快速启发式的浅层偏见。然而,本研究在多项选择题(MCQ)的立场偏差测试中发现了截然不同的结果:在任意具备推理能力的模型内,每个问题的立场偏差程度与推理轨迹的长度成正比。
研究团队在MMLU、ARC-Challenge和GPQA等基准测试上,对13种推理模式配置(包括两种R1蒸馏7-8B模型、两种以CoT提示的基础模型,以及671B参数的DeepSeek-R1)进行了评估。其中12种配置在控制准确率后,轨迹长度与立场偏差分数(Position Bias Score, PBS)之间存在正相关,相关系数范围在0.11至0.41之间(p值均小于0.05)。所有12种开源推理模式配置均显示出PBS随轨迹长度四分位数单调递增的趋势。
关键的截断干预实验提供了因果证据:当从轨迹较后阶段继续推理时,模型转向位置偏好选项的概率显著增加。以R1-Qwen-7B为例,不同绝对位置桶上的转变概率从16%升至32%。值得注意的是,671B级DeepSeek-R1的整体PBS降至0.019,但长轨迹效应仍在最长四分位中显现(PBS=0.071),表明准确率抑制了长度驱动偏差的表达,但并未消除其潜在机制。
此外,研究还发现直接回答中的立场偏差是一个独立现象,其表现模式不同(在Llama-Instruct-direct中强,在Qwen-Instruct-direct中弱,且与轨迹长度无关)。CoT推理实际上用长度累积的偏差替代了这种基线偏差。
这些结果有力地表明,在MCQ评估流程中,不应默认推理模型对选项顺序鲁棒。为此,研究团队提供了一套诊断工具包,包括PBS、承诺变化点(commitment change point)、有效切换(effective switching)和截断探针(truncation probes),用于审计推理模型中的立场偏差。