2026-06-08 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

透過線上策略蒸餾實現資料高效的自迴歸到擴散語言模型

本研究提出線上策略擴散語言模型（OPDLM），透過線上策略蒸餾（OPD）將自迴歸模型轉換為擴散語言模型，解決了傳統方法中的分佈偏移問題。實驗表明，OPDLM在多種任務上僅需15到7000分之一的訓練資料即可達到強效能，將DLM轉換定位為ARLM的後訓練步驟。

來源arXiv Computational Linguistics作者: Xingyu Su, Jacob Helwig, Shubham Parashar, Atharv Chagi, Lakshmi Jotsna, Degui Zhi, James Caverlee, Dileep Kalathil, Shuiwang Ji

近日，一項發表於arXiv的研究提出了一種名為線上策略擴散語言模型（OPDLM）的新方法，旨在高效地將自迴歸語言模型（ARLM）轉換為擴散語言模型（DLM）。傳統的轉換方法通常將ARLM中的因果注意力替換為雙向注意力，並採用DLM目標進行訓練，但這會導致兩種分佈偏移：一是從下一個詞預測目標切換到DLM目標可能丟失ARLM已習得的知識；二是標準DLM存在訓練-推理不匹配問題，因為訓練損失基於隨機掩碼序列，而推理時採用基於置信度的解碼生成的軌跡。

為了應對這些挑戰，OPDLM引入了線上策略蒸餾（OPD）。具體而言，OPDLM透過自線上策略蒸餾進行訓練：學生網路是一個具有雙向注意力的ARLM，它自行生成軌跡；教師網路則是原始的凍結ARLM，透過在這些軌跡上提供目標logits來蒸餾知識。這種線上策略訓練方式直接消除了DLM中的訓練-推理不匹配，同時從原始模型進行蒸餾增強了知識保留。

實驗結果表明，OPDLM在多種任務中展現出強大的效能，且所需訓練資料僅為傳統方法的15到7000分之一。這避免了DLM預訓練的高昂成本，並將DLM轉換定位為一種ARLM的後訓練形式。該研究為語言模型的轉換提供了新的視角，有望推動高效、高效能語言模型的發展。