2026-06-08 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

通过在线策略蒸馏实现数据高效的自回归到扩散语言模型

本研究提出在线策略扩散语言模型（OPDLM），通过在线策略蒸馏（OPD）将自回归模型转换为扩散语言模型，解决了传统方法中的分布偏移问题。实验表明，OPDLM在多种任务上仅需15到7000分之一的训练数据即可达到强性能，将DLM转换定位为ARLM的后训练步骤。

来源arXiv Computational Linguistics作者: Xingyu Su, Jacob Helwig, Shubham Parashar, Atharv Chagi, Lakshmi Jotsna, Degui Zhi, James Caverlee, Dileep Kalathil, Shuiwang Ji

近日，一项发表于arXiv的研究提出了一种名为在线策略扩散语言模型（OPDLM）的新方法，旨在高效地将自回归语言模型（ARLM）转换为扩散语言模型（DLM）。传统的转换方法通常将ARLM中的因果注意力替换为双向注意力，并采用DLM目标进行训练，但这会导致两种分布偏移：一是从下一个词预测目标切换到DLM目标可能丢失ARLM已习得的知识；二是标准DLM存在训练-推理不匹配问题，因为训练损失基于随机掩码序列，而推理时采用基于置信度的解码生成的轨迹。

为了应对这些挑战，OPDLM引入了在线策略蒸馏（OPD）。具体而言，OPDLM通过自在线策略蒸馏进行训练：学生网络是一个具有双向注意力的ARLM，它自行生成轨迹；教师网络则是原始的冻结ARLM，通过在这些轨迹上提供目标logits来蒸馏知识。这种在线策略训练方式直接消除了DLM中的训练-推理不匹配，同时从原始模型进行蒸馏增强了知识保留。

实验结果表明，OPDLM在多种任务中展现出强大的性能，且所需训练数据仅为传统方法的15到7000分之一。这避免了DLM预训练的高昂成本，并将DLM转换定位为一种ARLM的后训练形式。该研究为语言模型的转换提供了新的视角，有望推动高效、高性能语言模型的发展。