2026-07-02 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-02 16:02 UTC+8

GRPO、Dr. GRPO 與 DAPO 都是對同一個數的三種操作：組標準差恆等式

一篇新論文證明，三種流行的語言模型推理訓練方法——GRPO、Dr. GRPO 和 DAPO——本質上都是調整同一個數值：標準偏差，它衡量模型對同一問題的多次回答的分歧程度。論文揭示了組標準差恆等式，表明分歧程度直接決定訓練更新的幅度，並基於Big-Math資料集和實際訓練實驗驗證了這一發現。

來源arXiv Machine Learning作者: Yong Yi Bay, Kathleen A. Yearick

近年來，在訓練語言模型進行推理時，GRPO（Group Relative Policy Optimization）、Dr. GRPO（GRPO Done Right）和 DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization）這三種方法備受關注。表面上，它們各自採用了不同的技術手段：GRPO 透過除以一個數值來調整更新，Dr. GRPO 移除了這一除法操作，而 DAPO 則直接丟棄某些樣本組。然而，一篇來自 arXiv 的新論文（arXiv:2607.00152）揭示了一個令人驚訝的事實：這三種方法實際上都是對同一個核心數值進行操作——標準偏差。這個數值反映了模型在回答同一個問題時，多次取樣得到的結果之間的分歧程度。

當模型對每個問題進行多次回答時，自動檢查器會標記每次回答的正確與否。這些正確/錯誤標記的標準差恰好衡量了回答的分歧：當正誤答案各佔一半時，標準差最大；當所有答案一致時，標準差為零。論文提出了“組標準差恆等式”，證明在二元獎勵（正確/錯誤）下，訓練更新的幅度正好等於這個分歧程度。換言之，回答分歧最大的問題對模型學習的貢獻最大，而意見一致的問題則幾乎不提供任何學習訊號。

這一恆等式不僅統一了三種方法的數學基礎，還具有重要的實踐意義。它直接指出了哪些問題值得分配更多的訓練權重，以及每個問題需要多少次取樣才能達到有效學習。作者在大型真實難度資料集 Big-Math 上驗證了這一理論，並透過受控訓練實驗進一步確認了其實際效果。

論文的作者 Yong Yi Bay 和 Kathleen A. Yearick 強調，這一發現表明，GRPO、Dr. GRPO 和 DAPO 並非獨立發明的不同技巧，而是同一個“度盤”上的三個不同設定。這個度盤看起來只是無害的標準化步驟，但實際上決定了學習發生在哪裡以及學習的強度。這項工作為語言模型推理訓練提供了更清晰的理論指導，有望推動相關方法的進一步最佳化。