GRPO、Dr. GRPO 與 DAPO 都是對同一個數的三種操作:組標準差恆等式
一篇新論文證明,三種流行的語言模型推理訓練方法——GRPO、Dr. GRPO 和 DAPO——本質上都是調整同一個數值:標準偏差,它衡量模型對同一問題的多次回答的分歧程度。論文揭示了組標準差恆等式,表明分歧程度直接決定訓練更新的幅度,並基於Big-Math資料集和實際訓練實驗驗證了這一發現。
近年來,在訓練語言模型進行推理時,GRPO(Group Relative Policy Optimization)、Dr. GRPO(GRPO Done Right)和 DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)這三種方法備受關注。表面上,它們各自採用了不同的技術手段:GRPO 透過除以一個數值來調整更新,Dr. GRPO 移除了這一除法操作,而 DAPO 則直接丟棄某些樣本組。然而,一篇來自 arXiv 的新論文(arXiv:2607.00152)揭示了一個令人驚訝的事實:這三種方法實際上都是對同一個核心數值進行操作——標準偏差。這個數值反映了模型在回答同一個問題時,多次取樣得到的結果之間的分歧程度。
當模型對每個問題進行多次回答時,自動檢查器會標記每次回答的正確與否。這些正確/錯誤標記的標準差恰好衡量了回答的分歧:當正誤答案各佔一半時,標準差最大;當所有答案一致時,標準差為零。論文提出了“組標準差恆等式”,證明在二元獎勵(正確/錯誤)下,訓練更新的幅度正好等於這個分歧程度。換言之,回答分歧最大的問題對模型學習的貢獻最大,而意見一致的問題則幾乎不提供任何學習訊號。
這一恆等式不僅統一了三種方法的數學基礎,還具有重要的實踐意義。它直接指出了哪些問題值得分配更多的訓練權重,以及每個問題需要多少次取樣才能達到有效學習。作者在大型真實難度資料集 Big-Math 上驗證了這一理論,並透過受控訓練實驗進一步確認了其實際效果。
論文的作者 Yong Yi Bay 和 Kathleen A. Yearick 強調,這一發現表明,GRPO、Dr. GRPO 和 DAPO 並非獨立發明的不同技巧,而是同一個“度盤”上的三個不同設定。這個度盤看起來只是無害的標準化步驟,但實際上決定了學習發生在哪裡以及學習的強度。這項工作為語言模型推理訓練提供了更清晰的理論指導,有望推動相關方法的進一步最佳化。