2026-04-24 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

利用分布感知推测解码将强化学习 rollout 速度提升高达 50%

Rollout 是强化学习后训练中的隐形瓶颈。DAS 通过自适应推测解码解决了这一问题——速度提升高达 50%，且奖励质量零下降。

在大型语言模型的后训练中，强化学习（RL）已成为提升推理能力的关键技术。然而，随着模型规模的增长，一个被称为“rollout”的阶段正逐渐成为主要的性能瓶颈。Rollout 阶段要求模型为批次中的每个提示生成完整的响应序列，而最慢的生成决定了整个步骤的耗时。这导致了一个典型的“长尾”问题：大多数序列很快完成，但少数异常长的序列（称为 straggler）迫使整个批次等待，使得大量 GPU 计算资源处于空闲状态。据统计，rollout 阶段消耗了总训练时间的高达70%，超过了反向传播和参数更新的总和。

为了解决这一瓶颈，研究人员提出了分布感知推测解码（DAS）框架。DAS 通过两个核心组件实现了显著加速：自适应后缀树草稿模型和长度感知调度策略。自适应后缀树草稿模型基于最近的 rollout 轨迹构建后缀树，并通过匹配当前上下文与历史记录来生成推测草稿。由于无需梯度更新，该草稿模型能够随着策略的演化自我调整，始终保持与最新策略的同步。长度感知调度则包括跨 GPU 负载均衡（防止长序列集中在单个工作节点）和 GPU 内预算分配（根据历史统计动态划分长、中、短请求，并分配不同的推测预算）。

实验结果表明，DAS 在数学推理任务上（使用 DeepSeek-R1-Distill-Qwen-7B 模型）实现了超过 50% 的 rollout 时间减少，且奖励曲线与基线完全一致，说明训练信号未受任何影响。在代码生成任务上（使用 Qwen3-8B 模型），DAS 实现了约 25% 的加速，同时保持了奖励质量。此外，DAS 的优势在不同序列长度（8k–16k）和批次大小（16–32）下均能保持，证明了其鲁棒性。

DAS 具有三个显著特点：一是无损加速，其输出与标准解码完全相同，训练曲线无差异；二是鲁棒性强，适用于多种配置；三是零成本适应，草稿模型自动从 rollout 历史中演化，无需梯度更新或人工维护。随着强化学习后训练在越来越大的模型上应用，rollout 瓶颈将愈发突出。DAS 为实际部署提供了一条有前景的路径，可将计算成本降低高达 50%，同时不牺牲模型质量。