DRIFT: オンポリシーデータ帰属による指示データの洗練
DRIFTは、標準的な影響関数の近接ギャップと勾配ノルムバイアスに対処するため、オンポリシー影響関数を使用して教師ありファインチューニングデータを洗練する新しい手法を提案する。データ分布を改善してLLMの能力上限を引き上げ、7Bパラメータモデルで一貫した改善を達成する。
大規模言語モデル(LLM)の教師ありファインチューニング(SFT)では、トレーニングデータの分布最適化が重要です。既存のデータキュレーション手法は限られた予算下でトレーニングを加速できますが、能力上限を引き上げるには適していません。arXiv:2606.18307で発表された論文(Zefan Wangら、2026年6月16日投稿)では、オンポリシー影響関数(On-Policy Influence Functions)を用いてインスタンスレベルのデータ帰属を行うDRIFTを提案しています。
DRIFTは、標準的な影響関数の2つの構造的限界に対処します。第一に、オフポリシー検証目標による近接ギャップ(proximity gap)です。標準的な影響関数はパラメータ変化が小さいと仮定しますが、実際には検証データが異なる分布から来るため推定が不正確になります。DRIFTはモデル自身のオンポリシーロールアウトを検証目標とすることで、パラメータ近接ギャップを最小化し、影響関数の局所近傍仮定とより良く整合します。第二に、勾配ノルムバイアス(gradient norm bias)です。標準的な影響関数は勾配ノルムが大きいサンプルに過大な影響スコアを与えます。DRIFTは軌跡の正しさに基づく符号付き重み付けと、勾配ハッキング問題に対する影響スコアの脱バイアスを適用し、少数の検証クエリでデータセット全体を帰属できるようにします。
7Bパラメータの命令チューニングおよび推論モデルでの実験により、DRIFTが一貫して性能上限を引き上げ、既存のデータキュレーションベースラインを上回ることが示されました。この研究は、SFTデータ品質向上のための新しいアプローチを提供し、オンラインポリシー帰属がモデル改善に最も役立つトレーニングインスタンスを特定するのに有効であることを示しています。