AI News HubLIVE
站内改写2 分钟阅读

何时学习停止有帮助?推理模型早期退出的成本感知研究

该研究提出了LearnStop,一种无需隐藏状态的检查点停止器,用于推理语言模型。实验表明,在自由形式的数学任务上,学习多特征停止优于简单的标量退出策略,但在多项选择和极难任务上,标量规则更具竞争力。主要发现是当许多问题在预算耗尽前已正确但缺乏可靠标量信号时,学习停止有用。

来源arXiv AI作者: Zhe Dong (University of Maine at Presque Isle), Fang Qin (Stanford University), Manish Shah (Independent Researcher)

近日,一篇题为《When Does Learning to Stop Help? A Cost-Aware Study of Early Exits in Reasoning Models》的论文在arXiv上发布,由缅因大学普雷斯克岛分校的Zhe Dong等人撰写。该研究深入探讨了推理语言模型中的早期退出问题,指出不同实例所需的有用计算量各不相同,但尚不清楚学习停止规则相比简单的置信度或收敛阈值是否更优。

为此,研究者提出了LearnStop,一种无需隐藏状态的检查点停止器。在固定预算检查点,LearnStop从当前推理前缀中提取简短答案,并利用在线特征(如答案置信度、熵、前缀投票份额、答案稳定性和回溯标记密度)预测前缀的正确性。这些特征不依赖模型隐藏状态,使得LearnStop易于集成到现有系统中。

实验覆盖了18个任务模型设置,包括GSM8K、MATH-500、MMLU-Pro、AIME-90、GPQA等基准测试,以及Qwen3和DeepSeek-R1蒸馏模型。结果表明,学习停止的效果高度依赖任务。在自由形式数学任务上,学习多特征停止优于简单的标量退出策略,显著改进了固定预算下的性能前沿。例如,在GSM8K数据集上使用Qwen3-32B模型时,经验前沿达到后验峰值自适应增益+0.157,验证选择的工作点保持正增益,且相对于最强标量基线的配对增益为+0.028。

然而,在多项选择和极难设置中,标量规则(如置信度、熵或稳定性)与学习停止竞争甚至更强。因此,研究者并未将学习停止视为标量退出的通用替代,而是一种价值取决于轨迹结构的工具。主要实际发现是:当许多问题在完整预算之前就变得正确,但又不表现出单一可靠的标量停止信号时,学习停止最为有用;反之,如果置信度或答案收敛已经解决了停止问题,其益处则基本消失。

此外,论文还提供了验证选择的工作点、配对bootstrap检验、有限网格丢失正确风险校准、在KV-fork、前缀缓存和黑箱模式下的成本核算、H100服务分析、检查点调度扫描、迁移分析和鲁棒性检查。这些补充实验增强了结论的可信度和实用性。总之,该研究为推理模型的早期退出策略提供了成本感知的指导,帮助开发者根据任务特性选择合适的停止机制。