2026-06-30 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 15:57 UTC+8

BV-Blend：基於不確定性加權歷史基線的穩定無評論家強化學習方法，用於可驗證獎勵

在大型語言模型對齊中，無評論家強化學習（如GRPO）可節省記憶體和計算，但其優勢估計依賴組內獎勵統計，當組內所有軌跡獲得相同獎勵時可能失效。本文提出BV-Blend框架，透過結合提示區域性統計和語義簇的歷史時刻，利用標準誤差代理的置信權重進行混合，穩定了優勢估計。實驗表明BV-Blend在可驗證推理基準上提升了訓練穩定性和效能，尤其是在組歸一化方法可能停滯的場景下表現魯棒。

來源arXiv AI作者: Yupeng Chang, Yuan Wu, Yi Chang

在大型語言模型（LLM）的對齊訓練中，強化學習（RL）方法被廣泛用於最佳化模型行為。其中，基於可驗證獎勵的無評論家強化學習（RLVR）方法，如組相對策略最佳化（GRPO），因避免訓練價值函式而顯著降低了記憶體和計算開銷。然而，GRPO的優勢估計依賴於提示組內部的獎勵統計量，這可能導致嚴重的不穩定性。具體而言，當提示組內的所有生成軌跡獲得相同的獎勵（例如，二元驗證器給出全0或全1）時，組內獎勵方差為零，組歸一化會計算出零優勢，從而完全阻止學習過程。這一問題在冷啟動階段尤其突出，因為此時策略尚未成熟，獎勵訊號往往高度一致。

為應對這一挑戰，研究團隊提出了BV-Blend框架。該框架的核心思想是將提示區域性的線上策略統計與基於語義簇的歷史時刻相結合，以穩定優勢估計。首先，BV-Blend根據語義相似性將提示聚類，並維護每個簇的指數移動平均（EMA）獎勵矩。這些歷史矩提供了全域性性的基線資訊，能夠緩解區域性統計的波動。其次，BV-Blend利用標準誤差（SEM）代理來量化歷史統計的可靠性，並據此計算置信權重。該權重反映了歷史基線在多大程度上值得信任。最後，BV-Blend使用這個置信權重將歷史基線與提示區域性基線及方差統計進行混合，生成標準化的優勢估計，用於PPO風格的裁剪更新。

實驗在多個可驗證推理基準上進行，涵蓋數學和邏輯推理任務。結果表明，BV-Blend在訓練穩定性和最終效能上均顯著優於GRPO等基線方法。特別是在組歸一化方法容易失效的場景（如低獎勵方差或冷啟動階段），BV-Blend保持了出色的魯棒性。這項研究為無評論家強化學習提供了一種簡單而有效的改進，有望在LLM對齊領域得到廣泛應用，推動更高效、更穩定的模型訓練。