2026-05-08 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

RVPO：通過方差正則化實現風險敏感的對齊

當前的無需評論家的RLHF方法通過算術平均聚合多目標獎勵，容易忽視約束條件：一個目標的高分可以掩蓋其他目標的嚴重失敗。我們提出獎勵方差策略優化（RVPO），通過在優勢聚合中懲罰獎勵間方差，將目標從“最大化總和”轉變為“最大化一致性”。泰勒展開表明，LogSumExp（SoftMin）算子可充當平滑的方差懲罰。我們在醫療和科學推理任務（最多17個LLM評判的獎勵信號）以及工具調用任務（基於規則的約束）上評估了RVPO。RVPO通過防止模型忽視困難約束來利用簡單目標，在HealthBench上取得0.261（GDPO為0.215，p<0.001），並在GPQA-Diamond上保持競爭性準確率，沒有出現其他多獎勵方法後期性能下降的現象。

來源Apple Machine Learning Research

RVPO（獎勵方差策略優化）是蘋果機器學習研究團隊提出的一種新的多目標強化學習從人類反饋（RLHF）方法，旨在解決當前方法中普遍存在的約束忽視問題。在現有的無評論家RLHF方法（如GRPO、GDPO）中，多個獎勵信號通過簡單的算術平均聚合。這種方法導致了一個嚴重缺陷：如果一個目標取得了極高的分數，它可能數值上抵消其他目標的嚴重失敗（例如安全性或格式錯誤），從而使模型無法感知到關鍵的低性能“瓶頸”獎勵。這種約束忽視問題在多目標對齊中尤其危險，因為某些目標（如安全）的失敗可能帶來災難性後果。

RVPO的核心創新在於改變優勢函數的聚合方式。傳統方法旨在最大化所有獎勵的總和，而RVPO通過引入一個軟最小（SoftMin）算子來懲罰獎勵之間的方差，從而將優化目標從“最大化總和”轉變為“最大化一致性”。具體來説，RVPO使用LogSumExp函數作為平滑的方差懲罰項，通過泰勒展開可以證明其等效於對獎勵方差進行正則化。這種設計迫使模型在所有目標上都保持良好表現，而不是在某一個目標上過度優化而忽視其他目標。

研究團隊在多個複雜任務上評估了RVPO的性能。在醫療和科學推理任務中，模型需要同時滿足最多17個由LLM評判的獎勵信號（使用Qwen2.5-3B/7B/14B模型）。實驗結果表明，RVPO顯著優於基線方法：在HealthBench基準測試中，14B參數的RVPO模型取得了0.261的分數，而GDPO僅為0.215（p<0.001）。此外，在GPQA-Diamond基準上，RVPO保持了競爭性的準確率，並且沒有出現其他多獎勵方法在訓練後期常見的性能下降現象。在工具調用任務中（使用Qwen2.5-1.5B/3B模型），RVPO同樣表現出對約束的更好遵守。

RVPO的提出為多目標對齊提供了一種新的風險敏感框架，通過方差正則化有效緩解了約束忽視問題。該方法在不同模型規模下均表現出穩定的性能提升，且不犧牲通用能力。這一工作有望推動更可靠、更安全的AI系統的開發。