通过在线策略蒸馏实现数据高效的自回归到扩散语言模型
本研究提出在线策略扩散语言模型(OPDLM),通过在线策略蒸馏(OPD)将自回归模型转换为扩散语言模型,解决了传统方法中的分布偏移问题。实验表明,OPDLM在多种任务上仅需15到7000分之一的训练数据即可达到强性能,将DLM转换定位为ARLM的后训练步骤。
来源arXiv Computational Linguistics作者: Xingyu Su, Jacob Helwig, Shubham Parashar, Atharv Chagi, Lakshmi Jotsna, Degui Zhi, James Caverlee, Dileep Kalathil, Shuiwang Ji
近日,一项发表于arXiv的研究提出了一种名为在线策略扩散语言模型(OPDLM)的新方法,旨在高效地将自回归语言模型(ARLM)转换为扩散语言模型(DLM)。传统的转换方法通常将ARLM中的因果注意力替换为双向注意力,并采用DLM目标进行训练,但这会导致两种分布偏移:一是从下一个词预测目标切换到DLM目标可能丢失ARLM已习得的知识;二是标准DLM存在训练-推理不匹配问题,因为训练损失基于随机掩码序列,而推理时采用基于置信度的解码生成的轨迹。
为了应对这些挑战,OPDLM引入了在线策略蒸馏(OPD)。具体而言,OPDLM通过自在线策略蒸馏进行训练:学生网络是一个具有双向注意力的ARLM,它自行生成轨迹;教师网络则是原始的冻结ARLM,通过在这些轨迹上提供目标logits来蒸馏知识。这种在线策略训练方式直接消除了DLM中的训练-推理不匹配,同时从原始模型进行蒸馏增强了知识保留。
实验结果表明,OPDLM在多种任务中展现出强大的性能,且所需训练数据仅为传统方法的15到7000分之一。这避免了DLM预训练的高昂成本,并将DLM转换定位为一种ARLM的后训练形式。该研究为语言模型的转换提供了新的视角,有望推动高效、高性能语言模型的发展。