透過線上策略蒸餾實現資料高效的自迴歸到擴散語言模型
本研究提出線上策略擴散語言模型(OPDLM),透過線上策略蒸餾(OPD)將自迴歸模型轉換為擴散語言模型,解決了傳統方法中的分佈偏移問題。實驗表明,OPDLM在多種任務上僅需15到7000分之一的訓練資料即可達到強效能,將DLM轉換定位為ARLM的後訓練步驟。
來源arXiv Computational Linguistics作者: Xingyu Su, Jacob Helwig, Shubham Parashar, Atharv Chagi, Lakshmi Jotsna, Degui Zhi, James Caverlee, Dileep Kalathil, Shuiwang Ji
近日,一項發表於arXiv的研究提出了一種名為線上策略擴散語言模型(OPDLM)的新方法,旨在高效地將自迴歸語言模型(ARLM)轉換為擴散語言模型(DLM)。傳統的轉換方法通常將ARLM中的因果注意力替換為雙向注意力,並採用DLM目標進行訓練,但這會導致兩種分佈偏移:一是從下一個詞預測目標切換到DLM目標可能丟失ARLM已習得的知識;二是標準DLM存在訓練-推理不匹配問題,因為訓練損失基於隨機掩碼序列,而推理時採用基於置信度的解碼生成的軌跡。
為了應對這些挑戰,OPDLM引入了線上策略蒸餾(OPD)。具體而言,OPDLM透過自線上策略蒸餾進行訓練:學生網路是一個具有雙向注意力的ARLM,它自行生成軌跡;教師網路則是原始的凍結ARLM,透過在這些軌跡上提供目標logits來蒸餾知識。這種線上策略訓練方式直接消除了DLM中的訓練-推理不匹配,同時從原始模型進行蒸餾增強了知識保留。
實驗結果表明,OPDLM在多種任務中展現出強大的效能,且所需訓練資料僅為傳統方法的15到7000分之一。這避免了DLM預訓練的高昂成本,並將DLM轉換定位為一種ARLM的後訓練形式。該研究為語言模型的轉換提供了新的視角,有望推動高效、高效能語言模型的發展。