自适应并行推理:高效推理扩展的下一个范式
自适应并行推理(APR)是一种让模型自主决定何时并行化、并行多少线程以及如何协调的新范式。本文详细分析了APR的动机、方法、训练策略和评估,讨论了其与固定并行方法的区别,并提出了未来研究方向。
自适应并行推理(Adaptive Parallel Reasoning, APR)是近年来大语言模型推理领域的一个重要发展方向。传统的推理扩展方法主要依赖顺序推理,通过增加推理步骤来提高准确性,但这种方法存在线性扩展成本、上下文窗口限制和延迟增长等问题。并行推理通过并行探索多条推理路径来缓解这些问题,但大多数现有方法(如自一致性、Best-of-N、树搜索等)的并行结构是固定的,由外部决定而非模型自主选择。
APR的核心思想是让模型本身控制并行化过程。通过输出特殊标记,模型可以自主决定何时进行并行推理、启动多少个线程以及如何协调它们。这种自适应性带来了三大优势:首先,APR无需领域特定的分解启发式,模型通过强化学习从试错中学习通用的分解策略;其次,APR避免了冗余计算,因为在分支之前模型已经规划好每个线程的任务;最后,APR可以根据问题复杂度选择不进行并行化,从而节省计算资源。
推理系统的实现涉及分叉-合并(fork-join)设计。在线程聚合阶段,存在两种主要方法:一种是修改推理引擎以重用KV缓存(如Multiverse),另一种是保持引擎不变、在客户端进行文本拼接(如ThreadWeaver)。前者可能带来系统脆弱性和非标准位置编码问题,后者虽然增加了预填充开销,但更易于部署和兼容现有硬件。
训练APR模型需要结合监督微调(SFT)和强化学习(RL)。SFT主要让模型学习并行控制流的输出格式,而RL则提供准确性和效率奖励。其中,效率奖励需要跟踪关键路径(critical path)长度,即最长因果依赖的令牌序列,以衡量端到端生成时间。奖励设计通常将正确性作为前提,只有当答案正确时才给予并行效率奖励。
评估方面,不同论文聚焦不同指标:Multiverse和ThreadWeaver关注在同等准确率下降低延迟;NPR追求100%的并行率;Parallel-R1则强调并行性作为训练时探索脚手架的价值。当前主要开放问题包括:并行性在推理时是否持续提升准确率,还是主要作为训练时的探索工具?模型是否容易退化为顺序推理?如何设计硬件感知的并行化训练方法?以及是否支持递归并行(并行深度大于1)?
总之,APR代表了推理扩展的一个重要范式转变,尽管面临诸多挑战,但它有望实现更高效、更灵活的大语言模型推理。