SEAD:透過熵引導監督實現能力感知的線上策略蒸餾
arXiv最新論文提出SEAD方法,利用熵作為統一探針,在三個尺度上解決線上策略蒸餾(OPD)中教師監督質量隨學生能力變化的問題,包括令牌分割槽、KL散度退火和課程學習,在OLMo-3模型上實現了平均準確率提升4.8%。
來源arXiv Computational Linguistics作者: Chia-Hsuan Lee, Zelei Cheng, Yu Wang, Renkun Ni, Sambit Sahu, Shi-Xiong Zhang, William Campbell
在人工智慧領域,知識蒸餾是一種將大型教師模型的知識遷移到較小學生模型的技術。其中,線上策略蒸餾(OPD)具有一種獨特性質:教師監督的質量取決於學生的當前能力。當學生模型產生不一致的軌跡時,會導致梯度噪聲;而已經掌握的令牌則產生冗餘梯度。這導致了在令牌、訓練階段和提示三個尺度上的浪費,但現有方法均採用統一監督。為了解決這一問題,來自多所機構的研究人員提出了SEAD(Competence-Aware On-Policy Distillation via Entropy-Guided Supervision),利用熵作為統一探針來檢測這種依賴能力的退化。
SEAD在三個尺度上引入創新:首先,透過聯合師生熵將令牌劃分為不同區域,分別應用定製散度或零梯度,從而跳過約50%的令牌;其次,採用餘弦排程從正向KL散度退火到反向KL散度,以匹配能力的增長;第三,實施能力門控課程,從簡單到複雜逐步引入提示。這些元件相互協同:令牌選擇需要一致的軌跡(由課程保證),退火需要單調改進(也由課程提供)。
在OLMo-3模型(7B至32B引數規模)上的實驗表明,SEAD在六個數學基準測試中比普通OPD平均準確率提高4.8%。消融實驗證實了各元件之間的超加性互動作用。該研究已被提交至arXiv,論文編號為arXiv:2606.28562。