何時學習停止有幫助?推理模型早期退出的成本感知研究
該研究提出了LearnStop,一種無需隱藏狀態的檢查點停止器,用於推理語言模型。實驗表明,在自由形式的數學任務上,學習多特徵停止優於簡單的標量退出策略,但在多項選擇和極難任務上,標量規則更具競爭力。主要發現是當許多問題在預算耗盡前已正確但缺乏可靠標量信號時,學習停止有用。
近日,一篇題為《When Does Learning to Stop Help? A Cost-Aware Study of Early Exits in Reasoning Models》的論文在arXiv上發佈,由緬因大學普雷斯克島分校的Zhe Dong等人撰寫。該研究深入探討了推理語言模型中的早期退出問題,指出不同實例所需的有用計算量各不相同,但尚不清楚學習停止規則相比簡單的置信度或收斂閾值是否更優。
為此,研究者提出了LearnStop,一種無需隱藏狀態的檢查點停止器。在固定預算檢查點,LearnStop從當前推理前綴中提取簡短答案,並利用在線特徵(如答案置信度、熵、前綴投票份額、答案穩定性和回溯標記密度)預測前綴的正確性。這些特徵不依賴模型隱藏狀態,使得LearnStop易於集成到現有系統中。
實驗覆蓋了18個任務模型設置,包括GSM8K、MATH-500、MMLU-Pro、AIME-90、GPQA等基準測試,以及Qwen3和DeepSeek-R1蒸餾模型。結果表明,學習停止的效果高度依賴任務。在自由形式數學任務上,學習多特徵停止優於簡單的標量退出策略,顯著改進了固定預算下的性能前沿。例如,在GSM8K數據集上使用Qwen3-32B模型時,經驗前沿達到後驗峯值自適應增益+0.157,驗證選擇的工作點保持正增益,且相對於最強標量基線的配對增益為+0.028。
然而,在多項選擇和極難設置中,標量規則(如置信度、熵或穩定性)與學習停止競爭甚至更強。因此,研究者並未將學習停止視為標量退出的通用替代,而是一種價值取決於軌跡結構的工具。主要實際發現是:當許多問題在完整預算之前就變得正確,但又不表現出單一可靠的標量停止信號時,學習停止最為有用;反之,如果置信度或答案收斂已經解決了停止問題,其益處則基本消失。
此外,論文還提供了驗證選擇的工作點、配對bootstrap檢驗、有限網格丟失正確風險校準、在KV-fork、前綴緩存和黑箱模式下的成本核算、H100服務分析、檢查點調度掃描、遷移分析和魯棒性檢查。這些補充實驗增強了結論的可信度和實用性。總之,該研究為推理模型的早期退出策略提供了成本感知的指導,幫助開發者根據任務特性選擇合適的停止機制。