AI News HubLIVE
サイト内リライト2 分で読了

キャリブレーションされた確率予測のための検証可能な報酬

本研究では、検証可能な報酬を用いた強化学習により、キャリブレーションされた確率予測モデルを訓練する手法を提案する。NFLの勝利確率予測をテストベッドとし、ラベルなし報酬(状態条件付き経験勝率)と勾配マスキングを導入することで、ノイズを除去し推論チェーンを保護する。7Bモデルがこの報酬のみで訓練され、人間のラベルや教師あり微調整なしに、ベッティング市場と同等のキャリブレーションを達成した。

ソースarXiv Machine Learning著者: Sadanand Singh, Allam Reddy, Manan Chopra

確率予測において、キャリブレーション(予測確率が実際の頻度と一致すること)はモデルの信頼性を測る重要な指標です。従来の強化学習では、検証可能な報酬(例:Brierスコア)を用いることで原理的にはキャリブレーションされた予測モデルを訓練できますが、実際にはキャリブレーションが悪化することが知られています。これは、単一の結果がノイズを含み、ポリシー勾配が推論チェーン(Chain of Thought)を破壊するためです。既存の対策は主に認識的不確実性(モデルの信頼度が正解・不正解と対応する状況)を扱いますが、本研究は偶発的予測(予測そのものが出力で、ラベルは確率的な結果)に焦点を当てています。

研究チームは、NFLの試合中における勝利確率予測をテストベッドとし、ベッティング市場をキャリブレーションの基準として使用しました。各プレイの実際の結果に報酬を与える従来の手法は、単一結果のノイズとポリシー勾配による思考連鎖の破壊のために失敗します。そこで彼らは、過去の結果から推定される状態条件付き経験勝率(state-conditioned empirical win rate)というラベルなしの検証可能な報酬を導入し、ラベルノイズを除去しました。さらに、直接予測または勾配マスキングにより、勾配が推論に影響を与えないようにしました。実験の結果、この報酬のみで訓練された70億パラメータのモデル(7B)は、人間のラベルや教師あり微調整なしに、ベッティング市場と同等のキャリブレーションを達成し、ゼロショットのフロンティアモデルよりも優れたキャリブレーションを示しました。また、そのフロンティアモデルと表形式推定器は7Bモデルと同じBrierスコアを達成し、市場のわずかな優位性は、モデルが共有する入力には含まれないリアルタイムの試合情報によるものであることが示唆されました。特に、勾配マスキングは思考連鎖を保持するため、予測の根拠となる推論を保存できますが、通常の思考連鎖訓練はそれを破壊します。この研究は、特に偶発性の高いシナリオ(スポーツ、天気予報など)において、キャリブレーションされた確率予測器を訓練するための効果的で実用的な新しい方法を提供します。人間のラベルを必要とせず、検証可能な履歴データのみで優れたキャリブレーションを達成できる点が重要です。