AI News HubLIVE
站内改写

可学习性感知的扩散语言模型微调

为提高扩散语言模型(DLM)的推理能力,研究人员提出LIFT算法,通过感知不同时间步的信息可学习性来优化微调过程,在六个推理基准上超越现有方法,并在AIME'24和AIME'25上取得高达3倍的相对提升。

文章情报

工程师进阶

要点

  • 标准SFT忽视可学习性,可能损害扩散语言模型性能。
  • LIFT根据掩码程度动态调整学习难度,先易后难。
  • 在AIME'24和AIME'25上实现3倍相对提升。

为什么重要

这条新闻值得关注,因为标准SFT忽视可学习性,可能损害扩散语言模型性能。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

扩散语言模型(DLM)作为一种新型生成模型,在文本生成领域展现出潜力,但其推理能力仍有待提升。监督微调(SFT)在自回归模型中取得了巨大成功,然而直接应用于DLM却面临挑战,甚至可能降低模型性能,背后的原因此前尚未被充分研究。

来自研究团队的最新工作深入分析了这一现象,发现标准SFT忽视了“可学习性”的概念——即模型在什么时间点学习哪些词汇是有效的。具体来说,当输入的大部分内容被掩码时,稀有词汇很难被准确学习;而当输入大部分未被掩码时,学习常见词汇虽然容易,但对模型提升的价值不大。这种不匹配导致SFT在DLM上效果不佳。

基于这一发现,研究者提出了LIFT(Learnability-Informed Fine-Tuning)算法。LIFT的核心思想是根据扩散过程的不同时间步调整学习目标:当掩码比例较高时,优先学习简单词汇;随着上下文信息逐渐丰富,再转向学习困难词汇。这样可以使训练过程与不同时间步的信息可用性对齐,从而更有效地利用数据。

实验结果表明,LIFT在六个推理基准测试上均优于现有的SFT方法,尤其在AIME'24和AIME'25上取得了高达3倍的相对性能提升。这一成果不仅为扩散语言模型的微调提供了理论指导,还给出了实用的算法实现。目前,相关代码已在GitHub上开源,有望推动该领域的进一步发展。