共形思维:计算预算下推理的风险控制
推理大语言模型(LLM)通过测试时扩展实现数据集级准确率随token预算增加而提升,这推动了自适应推理的发展——仅在能提高可靠性时消耗token,否则尽早停止。然而,设置token预算和自适应推理阈值涉及根本的风险-准确率权衡。本文将此问题重新定义为风险控制,即在限制错误率的同时最小化计算量。框架引入上阈值(在模型自信时停止推理,避免错误输出)和新型参数化下阈值(提前停止无法解决的实例,避免过早停止)。给定目标风险和验证集,使用无分布风险控制来最优指定这些停止机制。在多种推理任务和模型上的实验证明了该方法在满足用户指定风险目标的同时,实现了计算效率提升。
推理大语言模型(LLM)在测试时通过增加token预算可以提升准确率,这促使研究者探索自适应推理策略:仅在推理能提高可靠性时消耗计算资源,否则尽早停止。然而,如何设定合理的token预算以及自适应推理的阈值是一个实际挑战,涉及风险与准确率之间的根本权衡。来自约翰霍普金斯大学和苹果公司的研究团队提出了一种名为“共形思维”(Conformal Thinking)的新框架,将预算设置问题重新定义为风险控制问题,旨在将错误率控制在用户指定范围内的同时,最小化计算开销。
该框架引入了两种停止机制:上阈值和下阈值。上阈值在模型对当前推理结果高度自信时提前停止推理,从而避免因过度计算而产生错误输出;下阈值则是一个参数化的新型机制,用于在模型认定问题无法解决时提前终止,避免不必要的计算浪费。研究者利用无分布风险控制方法,在给定目标风险和验证集的情况下,最优地设定这些停止阈值。这种方法不依赖于对数据分布的具体假设,具有广泛的适用性。
实验在多种推理任务和模型上展开,包括数学推理和常识推理等。结果表明,“共形思维”框架能够有效地控制错误率,同时显著提升计算效率。特别是下阈值和集成停止机制的应用,进一步增强了性能。该研究为LLM推理的计算预算管理提供了一种原则性的方法,有望在资源受限的实际场景中发挥重要作用。相关代码已在GitHub上开源,可供社区进一步探索和应用。