投机解码:一切皆是推测
Modal团队全面推崇投机解码技术,认为它是当前最关键的高交互推理优化手段,能带来2-3倍甚至更高的加速效果。他们与Z Lab合作训练了针对Qwen系列模型的最先进DFlash投机解码器,额外提升5-20%的速度,并强调了投机解码在长上下文任务中的优势。本文详细解释了投机解码的原理、与传统优化的对比,以及通过模拟和数学模型展示的加速效果。
近日,Modal团队发表博客文章,全面宣扬投机解码(Speculative Decoding)技术,称其为当前实现高性能交互式推理的关键优化手段。他们与Z Lab紧密合作,训练了针对Qwen系列模型的最先进DFlash投机解码器(draft model),并已在Hugging Face上开源多个型号,包括Qwen 3.6 35B-A3B-DFlash、Qwen 3.5 4B-DFlash、Qwen 3.5 9B-DFlash、Qwen 3.5 27B-DFlash、Qwen 3.5 35B-A3B-DFlash和Qwen 3.5 122B-A10B-DFlash。这些新模型在已有DFlash基线之上,额外实现了5%至20%的速度提升,足以让Qwen 3.5 122B-A10B在单并发(concurrency 1)的B200节点上达到每秒超过1000个令牌的输出速度,相比之下无投机解码时仅为250 tok/s。此外,这些投机器在超长上下文任务(如智能体软件工程)中能更好地保持接受长度(acceptance length)。
Modal强调,投机解码是唯一能够带来量化级加速的推理优化手段。传统的内核优化(kernel optimization)往往耗费大量工程时间,却只能带来几个百分点的提升,而投机解码可实现2倍或3倍的整数倍加速。它们已与开源推理引擎SGLang和vLLM集成,缩小了与专有引擎的差距。更关键的是,当投机解码针对特定应用数据微调时,加速效果无与伦比——这符合“Bitter Lesson”的精神:投入更多数据和计算即可自动提升性能,无需顶尖内核工程师。因此,投机解码能够与AI应用共享硬件、算法和规模的持续改进曲线。
为了量化加速效果,Modal通过SGLang模拟、简单数学模型和更复杂的屋顶线模型(roofline model)展示了接受长度的重要性。在SGLang中,通过设置环境变量SGLANG_SIMULATE_ACC_LEN可以模拟接受行为,无需实际训练。基准测试显示,对于Qwen 3.5 27B模型,当模拟接受长度从1(自回归)增加到8时,输出令牌速率从每秒75个提升至422个,加速比达5.62倍。他们开发的玩具模型(toy model)进一步表明,加速比约等于接受长度。这些工具帮助研究人员在不进行昂贵训练的情况下预测和改进投机解码的性能。