RVPO:通过方差正则化实现风险敏感的对齐
当前的无需评论家的RLHF方法通过算术平均聚合多目标奖励,容易忽视约束条件:一个目标的高分可以掩盖其他目标的严重失败。我们提出奖励方差策略优化(RVPO),通过在优势聚合中惩罚奖励间方差,将目标从“最大化总和”转变为“最大化一致性”。泰勒展开表明,LogSumExp(SoftMin)算子可充当平滑的方差惩罚。我们在医疗和科学推理任务(最多17个LLM评判的奖励信号)以及工具调用任务(基于规则的约束)上评估了RVPO。RVPO通过防止模型忽视困难约束来利用简单目标,在HealthBench上取得0.261(GDPO为0.215,p<0.001),并在GPQA-Diamond上保持竞争性准确率,没有出现其他多奖励方法后期性能下降的现象。
RVPO(奖励方差策略优化)是苹果机器学习研究团队提出的一种新的多目标强化学习从人类反馈(RLHF)方法,旨在解决当前方法中普遍存在的约束忽视问题。在现有的无评论家RLHF方法(如GRPO、GDPO)中,多个奖励信号通过简单的算术平均聚合。这种方法导致了一个严重缺陷:如果一个目标取得了极高的分数,它可能数值上抵消其他目标的严重失败(例如安全性或格式错误),从而使模型无法感知到关键的低性能“瓶颈”奖励。这种约束忽视问题在多目标对齐中尤其危险,因为某些目标(如安全)的失败可能带来灾难性后果。
RVPO的核心创新在于改变优势函数的聚合方式。传统方法旨在最大化所有奖励的总和,而RVPO通过引入一个软最小(SoftMin)算子来惩罚奖励之间的方差,从而将优化目标从“最大化总和”转变为“最大化一致性”。具体来说,RVPO使用LogSumExp函数作为平滑的方差惩罚项,通过泰勒展开可以证明其等效于对奖励方差进行正则化。这种设计迫使模型在所有目标上都保持良好表现,而不是在某一个目标上过度优化而忽视其他目标。
研究团队在多个复杂任务上评估了RVPO的性能。在医疗和科学推理任务中,模型需要同时满足最多17个由LLM评判的奖励信号(使用Qwen2.5-3B/7B/14B模型)。实验结果表明,RVPO显著优于基线方法:在HealthBench基准测试中,14B参数的RVPO模型取得了0.261的分数,而GDPO仅为0.215(p<0.001)。此外,在GPQA-Diamond基准上,RVPO保持了竞争性的准确率,并且没有出现其他多奖励方法在训练后期常见的性能下降现象。在工具调用任务中(使用Qwen2.5-1.5B/3B模型),RVPO同样表现出对约束的更好遵守。
RVPO的提出为多目标对齐提供了一种新的风险敏感框架,通过方差正则化有效缓解了约束忽视问题。该方法在不同模型规模下均表现出稳定的性能提升,且不牺牲通用能力。这一工作有望推动更可靠、更安全的AI系统的开发。