AI News HubLIVE
站内改写1 分鐘閱讀

DRIFT:透過線上策略資料歸因最佳化指令資料

DRIFT提出了一種透過線上策略影響函式最佳化監督微調資料的新方法,解決了標準影響函式的鄰近差距和梯度範數偏差問題。它改善了資料分佈以提升LLM的能力上限,並在7B引數模型上取得一致改進。

來源arXiv Machine Learning作者: Zefan Wang, Lincheng Li, Tianyu Yu, Yuan Yao

大型語言模型(LLM)的監督微調(SFT)中,訓練資料的分佈最佳化至關重要。現有資料篩選方法在有限預算下能加速訓練,但難以提升模型能力上限。一篇發表於arXiv(編號2606.18307)的論文,由Zefan Wang等四位作者於2026年6月16日提交,提出了一種名為DRIFT的新方法,旨在透過線上策略影響函式(On-Policy Influence Functions)進行例項級資料歸因,從而最佳化資料分佈。

DRIFT針對標準影響函式的兩大結構限制進行了改進。第一個限制是鄰近差距(proximity gap),這是由於使用離線策略的驗證目標導致的。標準影響函式假設引數變化很小,但實際中驗證資料往往來自不同分佈,導致估計不準確。DRIFT採用模型自身的線上策略rollout作為驗證目標,即讓模型在當前引數下生成輸出,從而最小化引數鄰近差距,並更好地滿足影響函式的區域性鄰域假設。第二個限制是梯度範數偏差(gradient norm bias),即標準影響函式對高梯度範數的樣本賦予過高的影響分數,導致歸因偏差。DRIFT透過基於軌跡正確性的符號加權(signed weighting)和去偏處理(debiasing)來緩解梯度駭客問題,使得少量驗證查詢即可作為可靠錨點對整個資料集進行歸因。

在實驗中,DRIFT在7B引數的指令微調模型和推理模型上進行了測試。結果表明,DRIFT持續提升了模型的效能上限,超越了現有的資料篩選基線方法。這一工作為提升SFT資料質量提供了新的思路,表明透過線上策略歸因可以有效識別對模型提升最有幫助的訓練例項,從而指導資料分佈的最佳化。