AI News HubLIVE
站内改写1 分钟阅读

SEAD:通过熵引导监督实现能力感知的在线策略蒸馏

arXiv最新论文提出SEAD方法,利用熵作为统一探针,在三个尺度上解决在线策略蒸馏(OPD)中教师监督质量随学生能力变化的问题,包括令牌分区、KL散度退火和课程学习,在OLMo-3模型上实现了平均准确率提升4.8%。

来源arXiv Computational Linguistics作者: Chia-Hsuan Lee, Zelei Cheng, Yu Wang, Renkun Ni, Sambit Sahu, Shi-Xiong Zhang, William Campbell

在人工智能领域,知识蒸馏是一种将大型教师模型的知识迁移到较小学生模型的技术。其中,在线策略蒸馏(OPD)具有一种独特性质:教师监督的质量取决于学生的当前能力。当学生模型产生不一致的轨迹时,会导致梯度噪声;而已经掌握的令牌则产生冗余梯度。这导致了在令牌、训练阶段和提示三个尺度上的浪费,但现有方法均采用统一监督。为了解决这一问题,来自多所机构的研究人员提出了SEAD(Competence-Aware On-Policy Distillation via Entropy-Guided Supervision),利用熵作为统一探针来检测这种依赖能力的退化。

SEAD在三个尺度上引入创新:首先,通过联合师生熵将令牌划分为不同区域,分别应用定制散度或零梯度,从而跳过约50%的令牌;其次,采用余弦调度从正向KL散度退火到反向KL散度,以匹配能力的增长;第三,实施能力门控课程,从简单到复杂逐步引入提示。这些组件相互协同:令牌选择需要一致的轨迹(由课程保证),退火需要单调改进(也由课程提供)。

在OLMo-3模型(7B至32B参数规模)上的实验表明,SEAD在六个数学基准测试中比普通OPD平均准确率提高4.8%。消融实验证实了各组件之间的超加性交互作用。该研究已被提交至arXiv,论文编号为arXiv:2606.28562。