AI News HubLIVE
站内改写

多少思考才足够?量化和理解大模型推理中的冗余

该研究量化了推理型大语言模型在长链思考中的冗余程度,发现61%至93%的推理步骤可以截断而不影响正确性,并证明这种冗余是长度无关结果奖励的结构性后果,而非模型缺陷。

文章情报

工程师进阶

要点

  • 提出推理冗余的正式定义:正确轨迹中可截断的尾部步骤比例
  • 在四个前沿模型和两个数学基准上测得冗余度高达61%-93%
  • 证明冗余是长度无关结果奖励的结构性结果,无法通过优化消除
  • 即使在最难的Level-5问题上,冗余度仍达46%-85%

为什么重要

这条新闻值得关注,因为提出推理冗余的正式定义:正确轨迹中可截断的尾部步骤比例。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

最新研究揭示了推理型大语言模型(LLM)在解决问题时存在大量不必要的思考步骤。来自一篇题为《How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning》的论文,对前沿推理模型在数学问题上的推理过程进行了系统量化。研究人员开发了一个形式化指标——推理冗余度,定义为一条正确推理轨迹中,从末尾开始可以被截断而模型仍能输出正确答案的步骤比例。通过在四个前沿推理模型(包括o1、Qwen等)和两个数学基准(MATH-500和AIME)上的大规模实验,他们发现步级冗余度出奇地高:在8个(模型,基准)组合中,冗余度介于61%到93%之间。更令人惊讶的是,在六种条件下,中位关键前缀(即必须保留的最少步骤)仅为单个步骤。即使在难度最高的Level-5问题上,所有模型的冗余度也高达46%至85%。研究还验证了该发现对不同的评判模型族具有鲁棒性。

但论文的核心贡献在于理论证明。作者严格证明了这种冗余并非模型特定的漏洞或训练不充分,而是当前训练范式的结构性后果。由于训练中使用的奖励函数只取决于最终答案的正确性,而与推理链的长度无关,因此任何基于此类奖励信号的优化方法(无论是强化学习还是蒸馏)都无法使模型在有限期望步骤内达到最优停止。这意味着,在长度无关结果奖励的设定下,模型必然会产生冗余思考,且无法通过后训练消除。这一结论独立于具体的算法、模型架构或数据分布。

研究团队指出,该发现挑战了“链式思考越长越准确”的普遍假设,并为开发更高效的推理模型指明了方向——未来模型可能需要学习何时停止思考,而非无休止地反思和验证。论文的相关代码已在GitHub上开源。这项研究不仅为理解LLM的推理行为提供了理论基石,也对实际部署中的推理成本、延迟优化以及下一代模型设计具有重要启示。