2026-05-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

可學習性感知的擴散語言模型微調

為提高擴散語言模型(DLM)的推理能力，研究人員提出LIFT演算法，透過感知不同時間步的資訊可學習性來最佳化微調過程，在六個推理基準上超越現有方法，並在AIME'24和AIME'25上取得高達3倍的相對提升。

來源arXiv Computational Linguistics作者: Shubham Parashar, Atharv Chagi, Jacob Helwig, Lakshmi Jotsna, Sushil Vemuri, James Caverlee, Dileep Kalathil, Shuiwang Ji

擴散語言模型（DLM）作為一種新型生成模型，在文本生成領域展現出潛力，但其推理能力仍有待提升。監督微調（SFT）在自迴歸模型中取得了巨大成功，然而直接應用於DLM卻面臨挑戰，甚至可能降低模型效能，背後的原因此前尚未被充分研究。

來自研究團隊的最新工作深入分析了這一現象，發現標準SFT忽視了“可學習性”的概念——即模型在什麼時間點學習哪些詞彙是有效的。具體來說，當輸入的大部分內容被掩碼時，稀有詞彙很難被準確學習；而當輸入大部分未被掩碼時，學習常見詞彙雖然容易，但對模型提升的價值不大。這種不匹配導致SFT在DLM上效果不佳。

基於這一發現，研究者提出了LIFT（Learnability-Informed Fine-Tuning）演算法。LIFT的核心思想是根據擴散過程的不同時間步調整學習目標：當掩碼比例較高時，優先學習簡單詞彙；隨著上下文資訊逐漸豐富，再轉向學習困難詞彙。這樣可以使訓練過程與不同時間步的資訊可用性對齊，從而更有效地利用資料。

實驗結果表明，LIFT在六個推理基準測試上均優於現有的SFT方法，尤其在AIME'24和AIME'25上取得了高達3倍的相對效能提升。這一成果不僅為擴散語言模型的微調提供了理論指導，還給出了實用的演算法實現。目前，相關程式碼已在GitHub上開源，有望推動該領域的進一步發展。