2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 16:13 UTC+8

SEAD：通过熵引导监督实现能力感知的在线策略蒸馏

arXiv最新论文提出SEAD方法，利用熵作为统一探针，在三个尺度上解决在线策略蒸馏（OPD）中教师监督质量随学生能力变化的问题，包括令牌分区、KL散度退火和课程学习，在OLMo-3模型上实现了平均准确率提升4.8%。

来源arXiv Computational Linguistics作者: Chia-Hsuan Lee, Zelei Cheng, Yu Wang, Renkun Ni, Sambit Sahu, Shi-Xiong Zhang, William Campbell

在人工智能领域，知识蒸馏是一种将大型教师模型的知识迁移到较小学生模型的技术。其中，在线策略蒸馏（OPD）具有一种独特性质：教师监督的质量取决于学生的当前能力。当学生模型产生不一致的轨迹时，会导致梯度噪声；而已经掌握的令牌则产生冗余梯度。这导致了在令牌、训练阶段和提示三个尺度上的浪费，但现有方法均采用统一监督。为了解决这一问题，来自多所机构的研究人员提出了SEAD（Competence-Aware On-Policy Distillation via Entropy-Guided Supervision），利用熵作为统一探针来检测这种依赖能力的退化。

SEAD在三个尺度上引入创新：首先，通过联合师生熵将令牌划分为不同区域，分别应用定制散度或零梯度，从而跳过约50%的令牌；其次，采用余弦调度从正向KL散度退火到反向KL散度，以匹配能力的增长；第三，实施能力门控课程，从简单到复杂逐步引入提示。这些组件相互协同：令牌选择需要一致的轨迹（由课程保证），退火需要单调改进（也由课程提供）。

在OLMo-3模型（7B至32B参数规模）上的实验表明，SEAD在六个数学基准测试中比普通OPD平均准确率提高4.8%。消融实验证实了各组件之间的超加性交互作用。该研究已被提交至arXiv，论文编号为arXiv:2606.28562。