AI News HubLIVE
站內改寫2 分鐘閱讀

可驗證獎勵實現校準的機率預測

本研究提出一種基於可驗證獎勵的強化學習方法,用於訓練校準的機率預測模型。透過引入無標籤獎勵(基於歷史結果的狀態條件經驗勝率)和梯度遮蔽技術,解決了直接獎勵真實結果導致的校準退化問題。在NFL比賽勝率預測測試中,7B引數模型僅使用該獎勵訓練,無需人工標籤或監督微調,即達到了博彩市場的校準水平,並優於零樣本前沿模型。

來源arXiv Machine Learning作者: Sadanand Singh, Allam Reddy, Manan Chopra

在機率預測領域,校準性(即預測機率與真實發生頻率的一致性)是衡量模型可靠性的核心指標。傳統的強化學習方法透過可驗證獎勵(如Brier分數)理論上可以訓練出校準的預測模型,因為Proper Scoring Rule本身僅依賴實際結果。然而,實際應用中發現直接獎勵真實結果會導致校準性退化,這是因為單次結果含有大量噪聲,且策略梯度會破壞模型的推理鏈(Chain of Thought)。現有研究多針對認知不確定性(即模型自信度與答案正確性的關係),而本文聚焦於隨機性預測(Aleatoric Forecasting),其中預測本身就是輸出,而標籤是隨機結果。

研究團隊以NFL比賽中即時勝率預測為測試平臺,以博彩市場作為校準基準。他們發現,對每個比賽回合的實際勝負進行獎勵的效果不佳,原因在於單次結果是噪聲目標,且策略梯度汙染了推理過程。為此,他們提出了一種無需標籤的可驗證獎勵——基於歷史結果的狀態條件經驗勝率估計(state-conditioned empirical win rate)。該獎勵透過聚合過去類似狀態下的結果來消除標籤噪聲。同時,為了保持推理鏈的完整性,他們採用了兩種策略:直接預測(不透過推理鏈直接輸出機率)或梯度遮蔽(阻止梯度流入推理部分)。實驗表明,僅使用這種獎勵,一個70億引數的模型(7B)無需任何人工標註或監督微調,即可達到博彩市場的校準水平,並且比零樣本的前沿模型校準得更好。有趣的是,該前沿模型和簡單的表格估計器達到了與7B模型相同的Brier分數,說明博彩市場的微小優勢來自於即時比賽資訊(如球員狀態、天氣等),而這些資訊並未包含在模型的共享輸入中。特別值得注意的是,梯度遮蔽保留了完整的推理鏈,使得模型能夠依據邏輯推理進行預測,而普通的思維鏈訓練反而會破壞這一過程。本研究為訓練校準的機率預測器提供了一種實用且高效的新方法,尤其適用於隨機性較強的場景(如體育賽事、天氣預測等)。該方法無需人工標籤,僅依靠可驗證的歷史資料即可達到令人滿意的校準效能,對實際應用具有重要價值。