2026-07-02 08:00 UTC+8站内改写1 分钟阅读更新: 2026-07-03 05:01 UTC+8

残差上下文扩散语言模型

残差上下文扩散（RCD）是一种针对扩散大语言模型（dLLM）的新模块，它通过回收丢弃令牌的计算资源来提高效率和准确性。RCD将丢弃的令牌表示转换为上下文残差，并重新注入去噪过程。它采用解耦的两阶段训练流程，在多个基准测试中实现了5-10个百分点的准确率提升，在AIME任务上几乎将基线准确率翻倍，并将去噪步骤减少4-5倍。

来源Apple Machine Learning Research

扩散大语言模型（dLLM）作为纯自回归语言模型的有前途替代方案而兴起，因为它们能够并行解码多个令牌。然而，最先进的块级dLLM依赖于一种“重新掩码”机制，该机制仅解码最自信的令牌并丢弃其余部分，实际上浪费了大量计算。研究表明，回收被丢弃令牌的计算是有益的，因为这些令牌保留了后续去噪迭代中可用的上下文信息。为此，我们提出了残差上下文扩散（RCD），这是一个将丢弃的令牌表示转换为上下文残差并重新注入下一去噪步骤的模块。RCD采用解耦的两阶段训练流程，以绕过后向传播带来的内存瓶颈。我们在长链思维推理（SDAR）和短链思维指令跟随（LLaDA）模型上验证了该方法。结果表明，仅需约10亿令牌，即可将标准dLLM高效转换为RCD范式。在广泛的基准测试中，RCD以极少的额外计算开销，持续将前沿dLLM的准确率提升5-10个百分点。值得注意的是，在最具挑战性的AIME任务上，RCD几乎将基线准确率翻倍，并在相等准确率水平下实现了高达4-5倍的去噪步骤减少。这一成果表明，通过有效回收计算资源，扩散语言模型可以更高效、更准确地生成文本，为未来大规模部署提供了新的可能性。此外，RCD的解耦训练流程显著降低了内存需求，使得在有限资源下也能进行训练。该研究由加州大学伯克利分校的研究人员完成，相关论文已发表于2026年7月。RCD的提出不仅提升了dLLM的性能，也为后续研究提供了新的思路，例如如何进一步优化丢弃令牌的利用策略。