2026-07-02 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-02 16:02 UTC+8

GRPO、Dr. GRPO 与 DAPO 都是对同一个数的三种操作：组标准差恒等式

一篇新论文证明，三种流行的语言模型推理训练方法——GRPO、Dr. GRPO 和 DAPO——本质上都是调整同一个数值：标准偏差，它衡量模型对同一问题的多次回答的分歧程度。论文揭示了组标准差恒等式，表明分歧程度直接决定训练更新的幅度，并基于Big-Math数据集和实际训练实验验证了这一发现。

来源arXiv Machine Learning作者: Yong Yi Bay, Kathleen A. Yearick

近年来，在训练语言模型进行推理时，GRPO（Group Relative Policy Optimization）、Dr. GRPO（GRPO Done Right）和 DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization）这三种方法备受关注。表面上，它们各自采用了不同的技术手段：GRPO 通过除以一个数值来调整更新，Dr. GRPO 移除了这一除法操作，而 DAPO 则直接丢弃某些样本组。然而，一篇来自 arXiv 的新论文（arXiv:2607.00152）揭示了一个令人惊讶的事实：这三种方法实际上都是对同一个核心数值进行操作——标准偏差。这个数值反映了模型在回答同一个问题时，多次采样得到的结果之间的分歧程度。

当模型对每个问题进行多次回答时，自动检查器会标记每次回答的正确与否。这些正确/错误标记的标准差恰好衡量了回答的分歧：当正误答案各占一半时，标准差最大；当所有答案一致时，标准差为零。论文提出了“组标准差恒等式”，证明在二元奖励（正确/错误）下，训练更新的幅度正好等于这个分歧程度。换言之，回答分歧最大的问题对模型学习的贡献最大，而意见一致的问题则几乎不提供任何学习信号。

这一恒等式不仅统一了三种方法的数学基础，还具有重要的实践意义。它直接指出了哪些问题值得分配更多的训练权重，以及每个问题需要多少次采样才能达到有效学习。作者在大型真实难度数据集 Big-Math 上验证了这一理论，并通过受控训练实验进一步确认了其实际效果。

论文的作者 Yong Yi Bay 和 Kathleen A. Yearick 强调，这一发现表明，GRPO、Dr. GRPO 和 DAPO 并非独立发明的不同技巧，而是同一个“度盘”上的三个不同设置。这个度盘看起来只是无害的标准化步骤，但实际上决定了学习发生在哪里以及学习的强度。这项工作为语言模型推理训练提供了更清晰的理论指导，有望推动相关方法的进一步优化。