2026-07-02 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-02 16:14 UTC+8

SLIM-RL：无需轨迹切分的风险预算随机掩码强化学习扩散大语言模型

SLIM-RL是一种新的强化学习方法，用于扩散大语言模型（dLLMs）。它通过τ预算解码器限制每步的承诺风险，并采用无迹随机掩码目标与方差降低技术，避免了TraceRL方法中昂贵的轨迹切分。在SDAR-4B上，SLIM-RL仅用0.46倍的训练样本就达到了与TraceRL相当的MATH500准确率，在数学和代码基准测试上均优于TraceRL。

来源arXiv Computational Linguistics作者: Ruikang Zhao, Zhenting Wang, Han Gao, Ligong Han

文章情报

工程师进阶

要点

SLIM-RL通过τ预算解码器限制承诺风险，无需重建轨迹，避免了轨迹切分的计算成本。
采用无迹随机掩码目标，结合序列级重要性采样和确定性正交法，实现方差降低。
在SDAR-4B上，以16块大小仅用0.46倍训练样本匹配TraceRL最佳MATH500性能，并在MATH500和GSM8K上分别提升6.32%和11.05%。
在代码基准测试上，MBPP和HumanEval分别提升4.20%和3.65%，且τ预算解码器可零成本迁移至其他模型。

为什么重要

这条新闻值得关注，因为SLIM-RL通过τ预算解码器限制承诺风险，无需重建轨迹，避免了轨迹切分的计算成本。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

近年来，扩散大语言模型（dLLMs）在自然语言处理领域展现出巨大潜力，但其强化学习训练面临效率瓶颈。当前最先进的方法TraceRL认为随机掩码与模型推理轨迹不匹配，因此必须通过将每次展开切片成多个轨迹对齐的样本来重建轨迹，这导致计算成本随块大小K线性增长。针对这一问题，来自多个机构的研究人员提出了一种名为SLIM-RL的新方法，在不重建轨迹的情况下缓解了不匹配问题，大幅提升了训练效率。

SLIM-RL的核心创新在于引入τ预算解码器，在每一步展开中限制承诺风险，从而降低训练数据中的总体风险。在优化过程中，它采用无迹随机掩码目标，并融合了序列级重要性采样、确定性正交法等方差降低技术，同时引入了一种均值保持、逐块单调递减的掩码调度。这些设计使得SLIM-RL能够在保持性能的同时，显著减少所需的训练样本。

实验结果表明，在SDAR-4B模型上，当块大小为16时，SLIM-RL仅需TraceRL 0.46倍的训练样本即可达到其最佳MATH500准确率。在匹配动态采样的条件下，SLIM-RL在MATH500上比TraceRL提升6.32%，在GSM8K上提升11.05%。当块大小为4时，4B参数的SLIM-RL在数学任务上甚至超越了更大的LLaDA-8B和Dream-7B扩散LLM，其中MATH500准确率比LLaDA-8B高出10.76%，但仍低于自回归模型Qwen2.5-7B。在代码生成任务上，SLIM-RL在MBPP和HumanEval上分别比TraceRL提升4.20%和3.65%。此外，τ预算解码器无需额外训练即可在LLaDA、Dream和SDAR等不同模型之间迁移，展示了良好的泛化能力。

该研究已发表于arXiv，并提供了开源代码（GitHub: https://github.com/laolaorkkkkk/SLIM-RL）。SLIM-RL为扩散大语言模型的强化学习提供了一种更高效、更经济的替代方案，有望推动该领域的实际应用和进一步发展。