2026-07-02 12:00 UTC+8站内改写2 分钟阅读更新: 2026-07-02 16:05 UTC+8

可验证奖励实现校准的概率预测

本研究提出一种基于可验证奖励的强化学习方法，用于训练校准的概率预测模型。通过引入无标签奖励（基于历史结果的状态条件经验胜率）和梯度屏蔽技术，解决了直接奖励真实结果导致的校准退化问题。在NFL比赛胜率预测测试中，7B参数模型仅使用该奖励训练，无需人工标签或监督微调，即达到了博彩市场的校准水平，并优于零样本前沿模型。

来源arXiv Machine Learning作者: Sadanand Singh, Allam Reddy, Manan Chopra

在概率预测领域，校准性（即预测概率与真实发生频率的一致性）是衡量模型可靠性的核心指标。传统的强化学习方法通过可验证奖励（如Brier分数）理论上可以训练出校准的预测模型，因为Proper Scoring Rule本身仅依赖实际结果。然而，实际应用中发现直接奖励真实结果会导致校准性退化，这是因为单次结果含有大量噪声，且策略梯度会破坏模型的推理链（Chain of Thought）。现有研究多针对认知不确定性（即模型自信度与答案正确性的关系），而本文聚焦于随机性预测（Aleatoric Forecasting），其中预测本身就是输出，而标签是随机结果。

研究团队以NFL比赛中实时胜率预测为测试平台，以博彩市场作为校准基准。他们发现，对每个比赛回合的实际胜负进行奖励的效果不佳，原因在于单次结果是噪声目标，且策略梯度污染了推理过程。为此，他们提出了一种无需标签的可验证奖励——基于历史结果的状态条件经验胜率估计（state-conditioned empirical win rate）。该奖励通过聚合过去类似状态下的结果来消除标签噪声。同时，为了保持推理链的完整性，他们采用了两种策略：直接预测（不通过推理链直接输出概率）或梯度屏蔽（阻止梯度流入推理部分）。实验表明，仅使用这种奖励，一个70亿参数的模型（7B）无需任何人工标注或监督微调，即可达到博彩市场的校准水平，并且比零样本的前沿模型校准得更好。有趣的是，该前沿模型和简单的表格估计器达到了与7B模型相同的Brier分数，说明博彩市场的微小优势来自于实时比赛信息（如球员状态、天气等），而这些信息并未包含在模型的共享输入中。特别值得注意的是，梯度屏蔽保留了完整的推理链，使得模型能够依据逻辑推理进行预测，而普通的思维链训练反而会破坏这一过程。本研究为训练校准的概率预测器提供了一种实用且高效的新方法，尤其适用于随机性较强的场景（如体育赛事、天气预测等）。该方法无需人工标签，仅依靠可验证的历史数据即可达到令人满意的校准性能，对实际应用具有重要价值。