DRIFT:通過在線策略數據歸因優化指令數據
DRIFT提出了一種通過在線策略影響函數優化監督微調數據的新方法,解決了標準影響函數的鄰近差距和梯度範數偏差問題。它改善了數據分佈以提升LLM的能力上限,並在7B參數模型上取得一致改進。
大型語言模型(LLM)的監督微調(SFT)中,訓練數據的分佈優化至關重要。現有數據篩選方法在有限預算下能加速訓練,但難以提升模型能力上限。一篇發表於arXiv(編號2606.18307)的論文,由Zefan Wang等四位作者於2026年6月16日提交,提出了一種名為DRIFT的新方法,旨在通過在線策略影響函數(On-Policy Influence Functions)進行實例級數據歸因,從而優化數據分佈。
DRIFT針對標準影響函數的兩大結構限制進行了改進。第一個限制是鄰近差距(proximity gap),這是由於使用離線策略的驗證目標導致的。標準影響函數假設參數變化很小,但實際中驗證數據往往來自不同分佈,導致估計不準確。DRIFT採用模型自身的在線策略rollout作為驗證目標,即讓模型在當前參數下生成輸出,從而最小化參數鄰近差距,並更好地滿足影響函數的局部鄰域假設。第二個限制是梯度範數偏差(gradient norm bias),即標準影響函數對高梯度範數的樣本賦予過高的影響分數,導致歸因偏差。DRIFT通過基於軌跡正確性的符號加權(signed weighting)和去偏處理(debiasing)來緩解梯度黑客問題,使得少量驗證查詢即可作為可靠錨點對整個數據集進行歸因。
在實驗中,DRIFT在7B參數的指令微調模型和推理模型上進行了測試。結果表明,DRIFT持續提升了模型的性能上限,超越了現有的數據篩選基線方法。這一工作為提升SFT數據質量提供了新的思路,表明通過在線策略歸因可以有效識別對模型提升最有幫助的訓練實例,從而指導數據分佈的優化。