AI News HubLIVE
站内改写1 分钟阅读

学习扩散语言模型的去掩码策略

扩散大型语言模型(dLLM)在多项任务上已达到自回归模型的性能,同时推理效率更高。其关键设计之一是每个扩散步骤选择去掩码令牌的采样过程。当前启发式方法需要手动调整且性能随块大小增大而下降。本文提出使用强化学习训练采样策略,形式化掩码扩散采样为马尔可夫决策过程,并基于单层Transformer设计轻量策略。实验表明,该策略在半自回归生成中与先进启发式方法性能相当,在全扩散设置中更优。

扩散语言模型(dLLM)近年来在自然语言处理领域发展迅速,尤其是在生成任务上表现出色。这类模型通过并行解码多个令牌,显著提升了推理效率,使其成为自回归模型的有力替代方案。然而,dLLM的一个关键设计挑战在于采样过程:在每个扩散步骤中,模型需要决定哪些令牌被去掩码(即生成)。传统的启发式方法,例如基于置信度阈值的去掩码策略,虽然比随机去掩码在样本质量和令牌吞吐量上有所提升,但存在明显缺陷。首先,这些方法需要人工仔细调整参数;其次,研究观察到,当采用更大的块大小进行半自回归生成时,启发式方法的性能会显著下降,这限制了其在实际应用中的可扩展性。

为了克服这些局限性,来自阿姆斯特丹大学、麻省理工学院和苹果公司的研究人员提出了一种基于强化学习(RL)的创新方法。他们将掩码扩散采样过程形式化为一个马尔可夫决策过程(MDP),其中扩散语言模型本身充当环境,而采样策略则作为智能体。具体而言,他们设计了一个轻量级的策略网络,基于单层Transformer架构,该网络将模型输出的每个令牌的置信度映射为是否去掩码的决策。通过强化学习训练,该策略能够优化生成样本的质量和效率,而无需手动调整。

在实验中,研究人员将训练得到的策略与当前最先进的启发式方法进行了对比。结果表明,在半自回归(块状)生成设置下,训练策略的性能与启发式方法持平;而在全扩散(即每个步骤只解码单个令牌)设置下,训练策略则显著优于启发式方法。这一发现表明,通过强化学习学习采样策略不仅消除了手动调整的需求,还能在更广泛的设置中提升性能。

该研究为扩散语言模型的采样策略提供了新的视角,有望推动该类模型在更广泛场景中的应用,例如代码生成、文本摘要等任务。相关研究成果已被2026年ICML会议接收,并发表于2026年7月。