可预测的GRPO:训练动力学的封闭形式模型
本文提出了GRPO训练动力学的第一性原理降阶模型,将经验性的单指数饱和律重新解释为过阻尼极限,并引入了惯性项以描述慢启动阶段。模型提供了与可独立测量量相关的预测,包括群大小不变性、刷新间隔的稳定性阈值以及过阻尼到振荡的转变。实验表明,封闭形式轨迹在三个模型和两个群大小上对训练奖励的拟合R²≥0.91,群大小不变性在奖励曲线和八个数学基准的分布外转移上均成立。此外,模型提供了诊断奖励曲线混淆的失败模式(奖励黑客、优势退化、策略集中和动力学不稳定性)的方法。
Group Relative Policy Optimization(GRPO)已成为提升大语言模型推理能力的标准方法,但其训练动力学仍主要依赖经验描述:奖励轨迹常以低参数函数形式拟合,所得常数缺乏机械意义,超参数选择依赖于反复试错。最近,Rajat Ghosh等人在arXiv提交的论文《Predictable GRPO: A Closed-Form Model of Training Dynamics》中,提出了一个基于第一性原理的降阶模型,以解析方式刻画GRPO的训练动力学。
该模型具有三个关键结果。首先,它将经验性的单指数饱和律纳入其过阻尼极限,将拟合的平台、时间尺度和尺寸指数重新解释为底层势能的固定点、逆刚度和曲率缩放指数,并通过保留的惯性项添加了单指数无法表示的慢启动阶段。其次,模型提供了与可独立测量量相关的预测,而非依赖于拟合参数:确定性轨迹的群大小不变性(伴随1/G的稳态波动)、刷新间隔的锐利稳定性阈值,以及过阻尼到振荡的转变。第三,模型提供了诊断工具,能够分离奖励曲线本身所混淆的失败模式——奖励黑客、优势退化、策略集中和动力学不稳定性。
研究者在三个不同模型和两个群大小上验证了模型。封闭形式轨迹对训练奖励的拟合达到了R²≥0.91,且预测的群大小不变性不仅在奖励曲线上成立,还在八个数学基准的分布外转移中保持。在平均场假设严格成立的受控精确降阶设置中,softmax-bandit降阶复现了预测的过阻尼到振荡转变,并在独立测量的刚度处定位了刷新间隔稳定性阈值。
这项工作为理解和优化GRPO训练提供了坚实的理论基础,有望减少试错成本并提升训练稳定性。研究者指出,深度网络的完整演示留待未来工作。