2026-07-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 16:04 UTC+8

可预测的GRPO：训练动力学的封闭形式模型

本文提出了GRPO训练动力学的第一性原理降阶模型，将经验性的单指数饱和律重新解释为过阻尼极限，并引入了惯性项以描述慢启动阶段。模型提供了与可独立测量量相关的预测，包括群大小不变性、刷新间隔的稳定性阈值以及过阻尼到振荡的转变。实验表明，封闭形式轨迹在三个模型和两个群大小上对训练奖励的拟合R²≥0.91，群大小不变性在奖励曲线和八个数学基准的分布外转移上均成立。此外，模型提供了诊断奖励曲线混淆的失败模式（奖励黑客、优势退化、策略集中和动力学不稳定性）的方法。

来源arXiv Machine Learning作者: Rajat Ghosh, Datta Nimmaturi, Aryan Singhal, Vaishnavi Bhargava, Henry Wong, Johnu George, Debojyoti Dutta

Group Relative Policy Optimization（GRPO）已成为提升大语言模型推理能力的标准方法，但其训练动力学仍主要依赖经验描述：奖励轨迹常以低参数函数形式拟合，所得常数缺乏机械意义，超参数选择依赖于反复试错。最近，Rajat Ghosh等人在arXiv提交的论文《Predictable GRPO: A Closed-Form Model of Training Dynamics》中，提出了一个基于第一性原理的降阶模型，以解析方式刻画GRPO的训练动力学。

该模型具有三个关键结果。首先，它将经验性的单指数饱和律纳入其过阻尼极限，将拟合的平台、时间尺度和尺寸指数重新解释为底层势能的固定点、逆刚度和曲率缩放指数，并通过保留的惯性项添加了单指数无法表示的慢启动阶段。其次，模型提供了与可独立测量量相关的预测，而非依赖于拟合参数：确定性轨迹的群大小不变性（伴随1/G的稳态波动）、刷新间隔的锐利稳定性阈值，以及过阻尼到振荡的转变。第三，模型提供了诊断工具，能够分离奖励曲线本身所混淆的失败模式——奖励黑客、优势退化、策略集中和动力学不稳定性。

研究者在三个不同模型和两个群大小上验证了模型。封闭形式轨迹对训练奖励的拟合达到了R²≥0.91，且预测的群大小不变性不仅在奖励曲线上成立，还在八个数学基准的分布外转移中保持。在平均场假设严格成立的受控精确降阶设置中，softmax-bandit降阶复现了预测的过阻尼到振荡转变，并在独立测量的刚度处定位了刷新间隔稳定性阈值。

这项工作为理解和优化GRPO训练提供了坚实的理论基础，有望减少试错成本并提升训练稳定性。研究者指出，深度网络的完整演示留待未来工作。