2026-06-30 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 16:13 UTC+8

SEAD：透過熵引導監督實現能力感知的線上策略蒸餾

arXiv最新論文提出SEAD方法，利用熵作為統一探針，在三個尺度上解決線上策略蒸餾（OPD）中教師監督質量隨學生能力變化的問題，包括令牌分割槽、KL散度退火和課程學習，在OLMo-3模型上實現了平均準確率提升4.8%。

來源arXiv Computational Linguistics作者: Chia-Hsuan Lee, Zelei Cheng, Yu Wang, Renkun Ni, Sambit Sahu, Shi-Xiong Zhang, William Campbell

在人工智慧領域，知識蒸餾是一種將大型教師模型的知識遷移到較小學生模型的技術。其中，線上策略蒸餾（OPD）具有一種獨特性質：教師監督的質量取決於學生的當前能力。當學生模型產生不一致的軌跡時，會導致梯度噪聲；而已經掌握的令牌則產生冗餘梯度。這導致了在令牌、訓練階段和提示三個尺度上的浪費，但現有方法均採用統一監督。為了解決這一問題，來自多所機構的研究人員提出了SEAD（Competence-Aware On-Policy Distillation via Entropy-Guided Supervision），利用熵作為統一探針來檢測這種依賴能力的退化。

SEAD在三個尺度上引入創新：首先，透過聯合師生熵將令牌劃分為不同區域，分別應用定製散度或零梯度，從而跳過約50%的令牌；其次，採用餘弦排程從正向KL散度退火到反向KL散度，以匹配能力的增長；第三，實施能力門控課程，從簡單到複雜逐步引入提示。這些元件相互協同：令牌選擇需要一致的軌跡（由課程保證），退火需要單調改進（也由課程提供）。

在OLMo-3模型（7B至32B引數規模）上的實驗表明，SEAD在六個數學基準測試中比普通OPD平均準確率提高4.8%。消融實驗證實了各元件之間的超加性互動作用。該研究已被提交至arXiv，論文編號為arXiv:2606.28562。