可學習性感知的擴散語言模型微調
為提高擴散語言模型(DLM)的推理能力,研究人員提出LIFT算法,通過感知不同時間步的信息可學習性來優化微調過程,在六個推理基準上超越現有方法,並在AIME'24和AIME'25上取得高達3倍的相對提升。
文章情報
工程師進階
要點
- 標準SFT忽視可學習性,可能損害擴散語言模型性能。
- LIFT根據掩碼程度動態調整學習難度,先易後難。
- 在AIME'24和AIME'25上實現3倍相對提升。
為甚麼重要
這條新聞值得關注,因為標準SFT忽視可學習性,可能損害擴散語言模型性能。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
擴散語言模型(DLM)作為一種新型生成模型,在文本生成領域展現出潛力,但其推理能力仍有待提升。監督微調(SFT)在自迴歸模型中取得了巨大成功,然而直接應用於DLM卻面臨挑戰,甚至可能降低模型性能,背後的原因此前尚未被充分研究。
來自研究團隊的最新工作深入分析了這一現象,發現標準SFT忽視了“可學習性”的概念——即模型在什麼時間點學習哪些詞彙是有效的。具體來説,當輸入的大部分內容被掩碼時,稀有詞彙很難被準確學習;而當輸入大部分未被掩碼時,學習常見詞彙雖然容易,但對模型提升的價值不大。這種不匹配導致SFT在DLM上效果不佳。
基於這一發現,研究者提出了LIFT(Learnability-Informed Fine-Tuning)算法。LIFT的核心思想是根據擴散過程的不同時間步調整學習目標:當掩碼比例較高時,優先學習簡單詞彙;隨着上下文信息逐漸豐富,再轉向學習困難詞彙。這樣可以使訓練過程與不同時間步的信息可用性對齊,從而更有效地利用數據。
實驗結果表明,LIFT在六個推理基準測試上均優於現有的SFT方法,尤其在AIME'24和AIME'25上取得了高達3倍的相對性能提升。這一成果不僅為擴散語言模型的微調提供了理論指導,還給出了實用的算法實現。目前,相關代碼已在GitHub上開源,有望推動該領域的進一步發展。