AI News HubLIVE
站内改写1 分钟阅读

GRPO、Dr. GRPO 与 DAPO 都是对同一个数的三种操作:组标准差恒等式

一篇新论文证明,三种流行的语言模型推理训练方法——GRPO、Dr. GRPO 和 DAPO——本质上都是调整同一个数值:标准偏差,它衡量模型对同一问题的多次回答的分歧程度。论文揭示了组标准差恒等式,表明分歧程度直接决定训练更新的幅度,并基于Big-Math数据集和实际训练实验验证了这一发现。

来源arXiv Machine Learning作者: Yong Yi Bay, Kathleen A. Yearick

近年来,在训练语言模型进行推理时,GRPO(Group Relative Policy Optimization)、Dr. GRPO(GRPO Done Right)和 DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)这三种方法备受关注。表面上,它们各自采用了不同的技术手段:GRPO 通过除以一个数值来调整更新,Dr. GRPO 移除了这一除法操作,而 DAPO 则直接丢弃某些样本组。然而,一篇来自 arXiv 的新论文(arXiv:2607.00152)揭示了一个令人惊讶的事实:这三种方法实际上都是对同一个核心数值进行操作——标准偏差。这个数值反映了模型在回答同一个问题时,多次采样得到的结果之间的分歧程度。

当模型对每个问题进行多次回答时,自动检查器会标记每次回答的正确与否。这些正确/错误标记的标准差恰好衡量了回答的分歧:当正误答案各占一半时,标准差最大;当所有答案一致时,标准差为零。论文提出了“组标准差恒等式”,证明在二元奖励(正确/错误)下,训练更新的幅度正好等于这个分歧程度。换言之,回答分歧最大的问题对模型学习的贡献最大,而意见一致的问题则几乎不提供任何学习信号。

这一恒等式不仅统一了三种方法的数学基础,还具有重要的实践意义。它直接指出了哪些问题值得分配更多的训练权重,以及每个问题需要多少次采样才能达到有效学习。作者在大型真实难度数据集 Big-Math 上验证了这一理论,并通过受控训练实验进一步确认了其实际效果。

论文的作者 Yong Yi Bay 和 Kathleen A. Yearick 强调,这一发现表明,GRPO、Dr. GRPO 和 DAPO 并非独立发明的不同技巧,而是同一个“度盘”上的三个不同设置。这个度盘看起来只是无害的标准化步骤,但实际上决定了学习发生在哪里以及学习的强度。这项工作为语言模型推理训练提供了更清晰的理论指导,有望推动相关方法的进一步优化。