AI News HubLIVE
サイト内リライト1 分で読了

SEAD:エントロピー誘導監督による能力認識オン・ポリシー蒸留

arXivの新しい論文で提案されたSEADは、オン・ポリシー蒸留(OPD)において教師の監督品質が学生の能力に依存する問題に対処するため、エントロピーを統一的プローブとして使用し、トークン分割、KLダイバージェンスのアニーリング、カリキュラム学習の3つのスケールで改善を行う。OLMo-3で平均精度を4.8%向上。

ソースarXiv Computational Linguistics著者: Chia-Hsuan Lee, Zelei Cheng, Yu Wang, Renkun Ni, Sambit Sahu, Shi-Xiong Zhang, William Campbell

人工知能の分野において、知識蒸留は大規模な教師モデルの知識を小さな学生モデルに移す技術である。その中でも、オン・ポリシー蒸留(OPD)には、教師の監督品質が学生の現在の能力に依存するという独自の性質がある。学生モデルが一貫性のない軌跡を生成するとノイズの多い勾配が生じ、すでに習得したトークンは冗長な勾配をもたらす。これにより、トークン、トレーニングフェーズ、プロンプトの3つのスケールで無駄が発生するが、既存の手法は一律に監督を行う。この問題を解決するため、複数の機関の研究者らはSEAD(Competence-Aware On-Policy Distillation via Entropy-Guided Supervision)を提案した。これはエントロピーを統一的なプローブとして使用し、能力に依存した劣化を検出する。

SEADは3つのスケールで革新を導入する。まず、教師と学生の結合エントロピーを用いてトークンをゾーンに分割し、それぞれにカスタマイズされたダイバージェンスまたはゼロ勾配を適用することで、約50%のトークンをスキップする。次に、コサインスケジュールを使用して、能力の成長に合わせて順方向KLダイバージェンスから逆方向KLダイバージェンスにアニーリングする。第三に、能力ゲート付きカリキュラムを実装し、簡単なプロンプトから難しいプロンプトへと段階的に導入する。これらのコンポーネントは相乗的に機能する。トークン選択には一貫した軌跡が必要であり(カリキュラムが保証)、アニーリングには単調な改善が必要である(これもカリキュラムが提供する)。

OLMo-3モデル(7B〜32Bパラメータ)での実験では、SEADは6つの数学ベンチマークにおいて通常のOPDと比較して平均精度を4.8%向上させた。アブレーション研究により、各コンポーネント間の超加法的な相互作用が確認された。本研究はarXivに提出され、論文番号はarXiv:2606.28562である。