AI News HubLIVE
站内改写

可學習性感知的擴散語言模型微調

為提高擴散語言模型(DLM)的推理能力,研究人員提出LIFT演算法,透過感知不同時間步的資訊可學習性來最佳化微調過程,在六個推理基準上超越現有方法,並在AIME'24和AIME'25上取得高達3倍的相對提升。

文章情報

工程師進階

要點

  • 標準SFT忽視可學習性,可能損害擴散語言模型效能。
  • LIFT根據掩碼程度動態調整學習難度,先易後難。
  • 在AIME'24和AIME'25上實現3倍相對提升。

為什麼重要

這條新聞值得關注,因為標準SFT忽視可學習性,可能損害擴散語言模型效能。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

擴散語言模型(DLM)作為一種新型生成模型,在文本生成領域展現出潛力,但其推理能力仍有待提升。監督微調(SFT)在自迴歸模型中取得了巨大成功,然而直接應用於DLM卻面臨挑戰,甚至可能降低模型效能,背後的原因此前尚未被充分研究。

來自研究團隊的最新工作深入分析了這一現象,發現標準SFT忽視了“可學習性”的概念——即模型在什麼時間點學習哪些詞彙是有效的。具體來說,當輸入的大部分內容被掩碼時,稀有詞彙很難被準確學習;而當輸入大部分未被掩碼時,學習常見詞彙雖然容易,但對模型提升的價值不大。這種不匹配導致SFT在DLM上效果不佳。

基於這一發現,研究者提出了LIFT(Learnability-Informed Fine-Tuning)演算法。LIFT的核心思想是根據擴散過程的不同時間步調整學習目標:當掩碼比例較高時,優先學習簡單詞彙;隨著上下文資訊逐漸豐富,再轉向學習困難詞彙。這樣可以使訓練過程與不同時間步的資訊可用性對齊,從而更有效地利用資料。

實驗結果表明,LIFT在六個推理基準測試上均優於現有的SFT方法,尤其在AIME'24和AIME'25上取得了高達3倍的相對效能提升。這一成果不僅為擴散語言模型的微調提供了理論指導,還給出了實用的演算法實現。目前,相關程式碼已在GitHub上開源,有望推動該領域的進一步發展。