2026-07-02 08:00 UTC+8站内改写1 分钟阅读更新: 2026-07-03 05:00 UTC+8

学习扩散语言模型的去掩码策略

扩散大型语言模型（dLLM）在多项任务上已达到自回归模型的性能，同时推理效率更高。其关键设计之一是每个扩散步骤选择去掩码令牌的采样过程。当前启发式方法需要手动调整且性能随块大小增大而下降。本文提出使用强化学习训练采样策略，形式化掩码扩散采样为马尔可夫决策过程，并基于单层Transformer设计轻量策略。实验表明，该策略在半自回归生成中与先进启发式方法性能相当，在全扩散设置中更优。

来源Apple Machine Learning Research

扩散语言模型（dLLM）近年来在自然语言处理领域发展迅速，尤其是在生成任务上表现出色。这类模型通过并行解码多个令牌，显著提升了推理效率，使其成为自回归模型的有力替代方案。然而，dLLM的一个关键设计挑战在于采样过程：在每个扩散步骤中，模型需要决定哪些令牌被去掩码（即生成）。传统的启发式方法，例如基于置信度阈值的去掩码策略，虽然比随机去掩码在样本质量和令牌吞吐量上有所提升，但存在明显缺陷。首先，这些方法需要人工仔细调整参数；其次，研究观察到，当采用更大的块大小进行半自回归生成时，启发式方法的性能会显著下降，这限制了其在实际应用中的可扩展性。

为了克服这些局限性，来自阿姆斯特丹大学、麻省理工学院和苹果公司的研究人员提出了一种基于强化学习（RL）的创新方法。他们将掩码扩散采样过程形式化为一个马尔可夫决策过程（MDP），其中扩散语言模型本身充当环境，而采样策略则作为智能体。具体而言，他们设计了一个轻量级的策略网络，基于单层Transformer架构，该网络将模型输出的每个令牌的置信度映射为是否去掩码的决策。通过强化学习训练，该策略能够优化生成样本的质量和效率，而无需手动调整。

在实验中，研究人员将训练得到的策略与当前最先进的启发式方法进行了对比。结果表明，在半自回归（块状）生成设置下，训练策略的性能与启发式方法持平；而在全扩散（即每个步骤只解码单个令牌）设置下，训练策略则显著优于启发式方法。这一发现表明，通过强化学习学习采样策略不仅消除了手动调整的需求，还能在更广泛的设置中提升性能。

该研究为扩散语言模型的采样策略提供了新的视角，有望推动该类模型在更广泛场景中的应用，例如代码生成、文本摘要等任务。相关研究成果已被2026年ICML会议接收，并发表于2026年7月。