2026-07-01 12:00 UTC+8站内改写2 分钟阅读更新: 2026-07-01 15:54 UTC+8

何时学习停止有帮助？推理模型早期退出的成本感知研究

该研究提出了LearnStop，一种无需隐藏状态的检查点停止器，用于推理语言模型。实验表明，在自由形式的数学任务上，学习多特征停止优于简单的标量退出策略，但在多项选择和极难任务上，标量规则更具竞争力。主要发现是当许多问题在预算耗尽前已正确但缺乏可靠标量信号时，学习停止有用。

来源arXiv AI作者: Zhe Dong (University of Maine at Presque Isle), Fang Qin (Stanford University), Manish Shah (Independent Researcher)

文章情报

工程师进阶

要点

LearnStop使用在线特征（如置信度、熵、前缀投票份额、答案稳定性和回溯标记密度）预测前缀正确性。
在18个任务模型设置中，学习停止在自由形式数学上改进了固定预算前沿，在GSM8K上实现+0.157的峰值自适应增益。
在多项选择和极难任务上，标量退出（置信度、熵、稳定性）与学习停止竞争甚至更强。
学习停止并非通用替代，而是依赖于轨迹结构的工具，当置信度或答案收敛已经有效时其益处消失。

为什么重要

这条新闻值得关注，因为LearnStop使用在线特征（如置信度、熵、前缀投票份额、答案稳定性和回溯标记密度）预测前缀正确性。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

近日，一篇题为《When Does Learning to Stop Help? A Cost-Aware Study of Early Exits in Reasoning Models》的论文在arXiv上发布，由缅因大学普雷斯克岛分校的Zhe Dong等人撰写。该研究深入探讨了推理语言模型中的早期退出问题，指出不同实例所需的有用计算量各不相同，但尚不清楚学习停止规则相比简单的置信度或收敛阈值是否更优。

为此，研究者提出了LearnStop，一种无需隐藏状态的检查点停止器。在固定预算检查点，LearnStop从当前推理前缀中提取简短答案，并利用在线特征（如答案置信度、熵、前缀投票份额、答案稳定性和回溯标记密度）预测前缀的正确性。这些特征不依赖模型隐藏状态，使得LearnStop易于集成到现有系统中。

实验覆盖了18个任务模型设置，包括GSM8K、MATH-500、MMLU-Pro、AIME-90、GPQA等基准测试，以及Qwen3和DeepSeek-R1蒸馏模型。结果表明，学习停止的效果高度依赖任务。在自由形式数学任务上，学习多特征停止优于简单的标量退出策略，显著改进了固定预算下的性能前沿。例如，在GSM8K数据集上使用Qwen3-32B模型时，经验前沿达到后验峰值自适应增益+0.157，验证选择的工作点保持正增益，且相对于最强标量基线的配对增益为+0.028。

然而，在多项选择和极难设置中，标量规则（如置信度、熵或稳定性）与学习停止竞争甚至更强。因此，研究者并未将学习停止视为标量退出的通用替代，而是一种价值取决于轨迹结构的工具。主要实际发现是：当许多问题在完整预算之前就变得正确，但又不表现出单一可靠的标量停止信号时，学习停止最为有用；反之，如果置信度或答案收敛已经解决了停止问题，其益处则基本消失。

此外，论文还提供了验证选择的工作点、配对bootstrap检验、有限网格丢失正确风险校准、在KV-fork、前缀缓存和黑箱模式下的成本核算、H100服务分析、检查点调度扫描、迁移分析和鲁棒性检查。这些补充实验增强了结论的可信度和实用性。总之，该研究为推理模型的早期退出策略提供了成本感知的指导，帮助开发者根据任务特性选择合适的停止机制。