AI News HubLIVE
站内改写1 分钟阅读

DRIFT:通过在线策略数据归因优化指令数据

DRIFT提出了一种通过在线策略影响函数优化监督微调数据的新方法,解决了标准影响函数的邻近差距和梯度范数偏差问题。它改善了数据分布以提升LLM的能力上限,并在7B参数模型上取得一致改进。

来源arXiv Machine Learning作者: Zefan Wang, Lincheng Li, Tianyu Yu, Yuan Yao

大型语言模型(LLM)的监督微调(SFT)中,训练数据的分布优化至关重要。现有数据筛选方法在有限预算下能加速训练,但难以提升模型能力上限。一篇发表于arXiv(编号2606.18307)的论文,由Zefan Wang等四位作者于2026年6月16日提交,提出了一种名为DRIFT的新方法,旨在通过在线策略影响函数(On-Policy Influence Functions)进行实例级数据归因,从而优化数据分布。

DRIFT针对标准影响函数的两大结构限制进行了改进。第一个限制是邻近差距(proximity gap),这是由于使用离线策略的验证目标导致的。标准影响函数假设参数变化很小,但实际中验证数据往往来自不同分布,导致估计不准确。DRIFT采用模型自身的在线策略rollout作为验证目标,即让模型在当前参数下生成输出,从而最小化参数邻近差距,并更好地满足影响函数的局部邻域假设。第二个限制是梯度范数偏差(gradient norm bias),即标准影响函数对高梯度范数的样本赋予过高的影响分数,导致归因偏差。DRIFT通过基于轨迹正确性的符号加权(signed weighting)和去偏处理(debiasing)来缓解梯度黑客问题,使得少量验证查询即可作为可靠锚点对整个数据集进行归因。

在实验中,DRIFT在7B参数的指令微调模型和推理模型上进行了测试。结果表明,DRIFT持续提升了模型的性能上限,超越了现有的数据筛选基线方法。这一工作为提升SFT数据质量提供了新的思路,表明通过在线策略归因可以有效识别对模型提升最有帮助的训练实例,从而指导数据分布的优化。