2026-05-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

可学习性感知的扩散语言模型微调

为提高扩散语言模型(DLM)的推理能力，研究人员提出LIFT算法，通过感知不同时间步的信息可学习性来优化微调过程，在六个推理基准上超越现有方法，并在AIME'24和AIME'25上取得高达3倍的相对提升。

来源arXiv Computational Linguistics作者: Shubham Parashar, Atharv Chagi, Jacob Helwig, Lakshmi Jotsna, Sushil Vemuri, James Caverlee, Dileep Kalathil, Shuiwang Ji

扩散语言模型（DLM）作为一种新型生成模型，在文本生成领域展现出潜力，但其推理能力仍有待提升。监督微调（SFT）在自回归模型中取得了巨大成功，然而直接应用于DLM却面临挑战，甚至可能降低模型性能，背后的原因此前尚未被充分研究。

来自研究团队的最新工作深入分析了这一现象，发现标准SFT忽视了“可学习性”的概念——即模型在什么时间点学习哪些词汇是有效的。具体来说，当输入的大部分内容被掩码时，稀有词汇很难被准确学习；而当输入大部分未被掩码时，学习常见词汇虽然容易，但对模型提升的价值不大。这种不匹配导致SFT在DLM上效果不佳。

基于这一发现，研究者提出了LIFT（Learnability-Informed Fine-Tuning）算法。LIFT的核心思想是根据扩散过程的不同时间步调整学习目标：当掩码比例较高时，优先学习简单词汇；随着上下文信息逐渐丰富，再转向学习困难词汇。这样可以使训练过程与不同时间步的信息可用性对齐，从而更有效地利用数据。

实验结果表明，LIFT在六个推理基准测试上均优于现有的SFT方法，尤其在AIME'24和AIME'25上取得了高达3倍的相对性能提升。这一成果不仅为扩散语言模型的微调提供了理论指导，还给出了实用的算法实现。目前，相关代码已在GitHub上开源，有望推动该领域的进一步发展。