2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 15:57 UTC+8

BV-Blend：基于不确定性加权历史基线的稳定无评论家强化学习方法，用于可验证奖励

在大型语言模型对齐中，无评论家强化学习（如GRPO）可节省内存和计算，但其优势估计依赖组内奖励统计，当组内所有轨迹获得相同奖励时可能失效。本文提出BV-Blend框架，通过结合提示局部统计和语义簇的历史时刻，利用标准误差代理的置信权重进行混合，稳定了优势估计。实验表明BV-Blend在可验证推理基准上提升了训练稳定性和性能，尤其是在组归一化方法可能停滞的场景下表现鲁棒。

来源arXiv AI作者: Yupeng Chang, Yuan Wu, Yi Chang

在大型语言模型（LLM）的对齐训练中，强化学习（RL）方法被广泛用于优化模型行为。其中，基于可验证奖励的无评论家强化学习（RLVR）方法，如组相对策略优化（GRPO），因避免训练价值函数而显著降低了内存和计算开销。然而，GRPO的优势估计依赖于提示组内部的奖励统计量，这可能导致严重的不稳定性。具体而言，当提示组内的所有生成轨迹获得相同的奖励（例如，二元验证器给出全0或全1）时，组内奖励方差为零，组归一化会计算出零优势，从而完全阻止学习过程。这一问题在冷启动阶段尤其突出，因为此时策略尚未成熟，奖励信号往往高度一致。

为应对这一挑战，研究团队提出了BV-Blend框架。该框架的核心思想是将提示局部的在线策略统计与基于语义簇的历史时刻相结合，以稳定优势估计。首先，BV-Blend根据语义相似性将提示聚类，并维护每个簇的指数移动平均（EMA）奖励矩。这些历史矩提供了全局性的基线信息，能够缓解局部统计的波动。其次，BV-Blend利用标准误差（SEM）代理来量化历史统计的可靠性，并据此计算置信权重。该权重反映了历史基线在多大程度上值得信任。最后，BV-Blend使用这个置信权重将历史基线与提示局部基线及方差统计进行混合，生成标准化的优势估计，用于PPO风格的裁剪更新。

实验在多个可验证推理基准上进行，涵盖数学和逻辑推理任务。结果表明，BV-Blend在训练稳定性和最终性能上均显著优于GRPO等基线方法。特别是在组归一化方法容易失效的场景（如低奖励方差或冷启动阶段），BV-Blend保持了出色的鲁棒性。这项研究为无评论家强化学习提供了一种简单而有效的改进，有望在LLM对齐领域得到广泛应用，推动更高效、更稳定的模型训练。