2026-05-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

多少思考才足够？量化和理解大模型推理中的冗余

该研究量化了推理型大语言模型在长链思考中的冗余程度，发现61%至93%的推理步骤可以截断而不影响正确性，并证明这种冗余是长度无关结果奖励的结构性后果，而非模型缺陷。

来源arXiv AI作者: Zhiyuan Zhai, Xinkai You, Wenjing Yan, Xin Wang

最新研究揭示了推理型大语言模型（LLM）在解决问题时存在大量不必要的思考步骤。来自一篇题为《How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning》的论文，对前沿推理模型在数学问题上的推理过程进行了系统量化。研究人员开发了一个形式化指标——推理冗余度，定义为一条正确推理轨迹中，从末尾开始可以被截断而模型仍能输出正确答案的步骤比例。通过在四个前沿推理模型（包括o1、Qwen等）和两个数学基准（MATH-500和AIME）上的大规模实验，他们发现步级冗余度出奇地高：在8个（模型，基准）组合中，冗余度介于61%到93%之间。更令人惊讶的是，在六种条件下，中位关键前缀（即必须保留的最少步骤）仅为单个步骤。即使在难度最高的Level-5问题上，所有模型的冗余度也高达46%至85%。研究还验证了该发现对不同的评判模型族具有鲁棒性。

但论文的核心贡献在于理论证明。作者严格证明了这种冗余并非模型特定的漏洞或训练不充分，而是当前训练范式的结构性后果。由于训练中使用的奖励函数只取决于最终答案的正确性，而与推理链的长度无关，因此任何基于此类奖励信号的优化方法（无论是强化学习还是蒸馏）都无法使模型在有限期望步骤内达到最优停止。这意味着，在长度无关结果奖励的设定下，模型必然会产生冗余思考，且无法通过后训练消除。这一结论独立于具体的算法、模型架构或数据分布。

研究团队指出，该发现挑战了“链式思考越长越准确”的普遍假设，并为开发更高效的推理模型指明了方向——未来模型可能需要学习何时停止思考，而非无休止地反思和验证。论文的相关代码已在GitHub上开源。这项研究不仅为理解LLM的推理行为提供了理论基石，也对实际部署中的推理成本、延迟优化以及下一代模型设计具有重要启示。