AI News HubLIVE
站内改写2 分钟阅读

可验证奖励实现校准的概率预测

本研究提出一种基于可验证奖励的强化学习方法,用于训练校准的概率预测模型。通过引入无标签奖励(基于历史结果的状态条件经验胜率)和梯度屏蔽技术,解决了直接奖励真实结果导致的校准退化问题。在NFL比赛胜率预测测试中,7B参数模型仅使用该奖励训练,无需人工标签或监督微调,即达到了博彩市场的校准水平,并优于零样本前沿模型。

来源arXiv Machine Learning作者: Sadanand Singh, Allam Reddy, Manan Chopra

在概率预测领域,校准性(即预测概率与真实发生频率的一致性)是衡量模型可靠性的核心指标。传统的强化学习方法通过可验证奖励(如Brier分数)理论上可以训练出校准的预测模型,因为Proper Scoring Rule本身仅依赖实际结果。然而,实际应用中发现直接奖励真实结果会导致校准性退化,这是因为单次结果含有大量噪声,且策略梯度会破坏模型的推理链(Chain of Thought)。现有研究多针对认知不确定性(即模型自信度与答案正确性的关系),而本文聚焦于随机性预测(Aleatoric Forecasting),其中预测本身就是输出,而标签是随机结果。

研究团队以NFL比赛中实时胜率预测为测试平台,以博彩市场作为校准基准。他们发现,对每个比赛回合的实际胜负进行奖励的效果不佳,原因在于单次结果是噪声目标,且策略梯度污染了推理过程。为此,他们提出了一种无需标签的可验证奖励——基于历史结果的状态条件经验胜率估计(state-conditioned empirical win rate)。该奖励通过聚合过去类似状态下的结果来消除标签噪声。同时,为了保持推理链的完整性,他们采用了两种策略:直接预测(不通过推理链直接输出概率)或梯度屏蔽(阻止梯度流入推理部分)。实验表明,仅使用这种奖励,一个70亿参数的模型(7B)无需任何人工标注或监督微调,即可达到博彩市场的校准水平,并且比零样本的前沿模型校准得更好。有趣的是,该前沿模型和简单的表格估计器达到了与7B模型相同的Brier分数,说明博彩市场的微小优势来自于实时比赛信息(如球员状态、天气等),而这些信息并未包含在模型的共享输入中。特别值得注意的是,梯度屏蔽保留了完整的推理链,使得模型能够依据逻辑推理进行预测,而普通的思维链训练反而会破坏这一过程。本研究为训练校准的概率预测器提供了一种实用且高效的新方法,尤其适用于随机性较强的场景(如体育赛事、天气预测等)。该方法无需人工标签,仅依靠可验证的历史数据即可达到令人满意的校准性能,对实际应用具有重要价值。