SLIM-RL:无需轨迹切分的风险预算随机掩码强化学习扩散大语言模型
SLIM-RL是一种新的强化学习方法,用于扩散大语言模型(dLLMs)。它通过τ预算解码器限制每步的承诺风险,并采用无迹随机掩码目标与方差降低技术,避免了TraceRL方法中昂贵的轨迹切分。在SDAR-4B上,SLIM-RL仅用0.46倍的训练样本就达到了与TraceRL相当的MATH500准确率,在数学和代码基准测试上均优于TraceRL。
近年来,扩散大语言模型(dLLMs)在自然语言处理领域展现出巨大潜力,但其强化学习训练面临效率瓶颈。当前最先进的方法TraceRL认为随机掩码与模型推理轨迹不匹配,因此必须通过将每次展开切片成多个轨迹对齐的样本来重建轨迹,这导致计算成本随块大小K线性增长。针对这一问题,来自多个机构的研究人员提出了一种名为SLIM-RL的新方法,在不重建轨迹的情况下缓解了不匹配问题,大幅提升了训练效率。
SLIM-RL的核心创新在于引入τ预算解码器,在每一步展开中限制承诺风险,从而降低训练数据中的总体风险。在优化过程中,它采用无迹随机掩码目标,并融合了序列级重要性采样、确定性正交法等方差降低技术,同时引入了一种均值保持、逐块单调递减的掩码调度。这些设计使得SLIM-RL能够在保持性能的同时,显著减少所需的训练样本。
实验结果表明,在SDAR-4B模型上,当块大小为16时,SLIM-RL仅需TraceRL 0.46倍的训练样本即可达到其最佳MATH500准确率。在匹配动态采样的条件下,SLIM-RL在MATH500上比TraceRL提升6.32%,在GSM8K上提升11.05%。当块大小为4时,4B参数的SLIM-RL在数学任务上甚至超越了更大的LLaDA-8B和Dream-7B扩散LLM,其中MATH500准确率比LLaDA-8B高出10.76%,但仍低于自回归模型Qwen2.5-7B。在代码生成任务上,SLIM-RL在MBPP和HumanEval上分别比TraceRL提升4.20%和3.65%。此外,τ预算解码器无需额外训练即可在LLaDA、Dream和SDAR等不同模型之间迁移,展示了良好的泛化能力。
该研究已发表于arXiv,并提供了开源代码(GitHub: https://github.com/laolaorkkkkk/SLIM-RL)。SLIM-RL为扩散大语言模型的强化学习提供了一种更高效、更经济的替代方案,有望推动该领域的实际应用和进一步发展。