2026-07-02 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-02 16:05 UTC+8

可驗證獎勵實現校準的機率預測

本研究提出一種基於可驗證獎勵的強化學習方法，用於訓練校準的機率預測模型。透過引入無標籤獎勵（基於歷史結果的狀態條件經驗勝率）和梯度遮蔽技術，解決了直接獎勵真實結果導致的校準退化問題。在NFL比賽勝率預測測試中，7B引數模型僅使用該獎勵訓練，無需人工標籤或監督微調，即達到了博彩市場的校準水平，並優於零樣本前沿模型。

來源arXiv Machine Learning作者: Sadanand Singh, Allam Reddy, Manan Chopra

在機率預測領域，校準性（即預測機率與真實發生頻率的一致性）是衡量模型可靠性的核心指標。傳統的強化學習方法透過可驗證獎勵（如Brier分數）理論上可以訓練出校準的預測模型，因為Proper Scoring Rule本身僅依賴實際結果。然而，實際應用中發現直接獎勵真實結果會導致校準性退化，這是因為單次結果含有大量噪聲，且策略梯度會破壞模型的推理鏈（Chain of Thought）。現有研究多針對認知不確定性（即模型自信度與答案正確性的關係），而本文聚焦於隨機性預測（Aleatoric Forecasting），其中預測本身就是輸出，而標籤是隨機結果。

研究團隊以NFL比賽中即時勝率預測為測試平臺，以博彩市場作為校準基準。他們發現，對每個比賽回合的實際勝負進行獎勵的效果不佳，原因在於單次結果是噪聲目標，且策略梯度汙染了推理過程。為此，他們提出了一種無需標籤的可驗證獎勵——基於歷史結果的狀態條件經驗勝率估計（state-conditioned empirical win rate）。該獎勵透過聚合過去類似狀態下的結果來消除標籤噪聲。同時，為了保持推理鏈的完整性，他們採用了兩種策略：直接預測（不透過推理鏈直接輸出機率）或梯度遮蔽（阻止梯度流入推理部分）。實驗表明，僅使用這種獎勵，一個70億引數的模型（7B）無需任何人工標註或監督微調，即可達到博彩市場的校準水平，並且比零樣本的前沿模型校準得更好。有趣的是，該前沿模型和簡單的表格估計器達到了與7B模型相同的Brier分數，說明博彩市場的微小優勢來自於即時比賽資訊（如球員狀態、天氣等），而這些資訊並未包含在模型的共享輸入中。特別值得注意的是，梯度遮蔽保留了完整的推理鏈，使得模型能夠依據邏輯推理進行預測，而普通的思維鏈訓練反而會破壞這一過程。本研究為訓練校準的機率預測器提供了一種實用且高效的新方法，尤其適用於隨機性較強的場景（如體育賽事、天氣預測等）。該方法無需人工標籤，僅依靠可驗證的歷史資料即可達到令人滿意的校準效能，對實際應用具有重要價值。