AI News HubLIVE
站内改写1 分钟阅读

利用分布感知推测解码将强化学习 rollout 速度提升高达 50%

Rollout 是强化学习后训练中的隐形瓶颈。DAS 通过自适应推测解码解决了这一问题——速度提升高达 50%,且奖励质量零下降。

在大型语言模型的后训练中,强化学习(RL)已成为提升推理能力的关键技术。然而,随着模型规模的增长,一个被称为“rollout”的阶段正逐渐成为主要的性能瓶颈。Rollout 阶段要求模型为批次中的每个提示生成完整的响应序列,而最慢的生成决定了整个步骤的耗时。这导致了一个典型的“长尾”问题:大多数序列很快完成,但少数异常长的序列(称为 straggler)迫使整个批次等待,使得大量 GPU 计算资源处于空闲状态。据统计,rollout 阶段消耗了总训练时间的高达70%,超过了反向传播和参数更新的总和。

为了解决这一瓶颈,研究人员提出了分布感知推测解码(DAS)框架。DAS 通过两个核心组件实现了显著加速:自适应后缀树草稿模型和长度感知调度策略。自适应后缀树草稿模型基于最近的 rollout 轨迹构建后缀树,并通过匹配当前上下文与历史记录来生成推测草稿。由于无需梯度更新,该草稿模型能够随着策略的演化自我调整,始终保持与最新策略的同步。长度感知调度则包括跨 GPU 负载均衡(防止长序列集中在单个工作节点)和 GPU 内预算分配(根据历史统计动态划分长、中、短请求,并分配不同的推测预算)。

实验结果表明,DAS 在数学推理任务上(使用 DeepSeek-R1-Distill-Qwen-7B 模型)实现了超过 50% 的 rollout 时间减少,且奖励曲线与基线完全一致,说明训练信号未受任何影响。在代码生成任务上(使用 Qwen3-8B 模型),DAS 实现了约 25% 的加速,同时保持了奖励质量。此外,DAS 的优势在不同序列长度(8k–16k)和批次大小(16–32)下均能保持,证明了其鲁棒性。

DAS 具有三个显著特点:一是无损加速,其输出与标准解码完全相同,训练曲线无差异;二是鲁棒性强,适用于多种配置;三是零成本适应,草稿模型自动从 rollout 历史中演化,无需梯度更新或人工维护。随着强化学习后训练在越来越大的模型上应用,rollout 瓶颈将愈发突出。DAS 为实际部署提供了一条有前景的路径,可将计算成本降低高达 50%,同时不牺牲模型质量。