AI News HubLIVE
站内改写2 分钟阅读

EntMTP: 基于熵引导的多令牌预测加速大模型推理

EntMTP是一种无需训练的调度器,通过根据局部生成熵动态切换树注意力拓扑,在低熵区域进行深度推测,高熵区域保守推测,从而在不牺牲生成质量的前提下,最大化吞吐量。在多个基准测试中,相比Hydra和Medusa分别实现1.15倍和最高1.36倍的加速。

来源arXiv Computational Linguistics作者: Carrie Chen

近日,一篇题为《EntMTP: Accelerating LLM Inference with Entropy Guided Multi Token Prediction》的研究论文在arXiv上发布(编号2606.27550),由Carrie Chen撰写,于2026年6月25日提交。该论文提出了一种名为EntMTP的新型推理加速方法,旨在解决大型语言模型(LLM)在自推测解码中存在的效率瓶颈。

多令牌预测(MTP)已被证明能提升训练数据密度和文本生成质量,并成为自推测解码的标准方法。然而,现有使用MTP头的模型(如Hydra和Medusa)采用固定的静态树注意力拓扑,导致推测深度在整个生成过程中保持不变,与自然语言的熵模式严重不匹配。低熵区域(如常见短语或重复模式)可支持可靠的多步草稿,而高熵区域(如创意写作或技术细节)则需要更保守的推测。这一错配导致验证计算量浪费或机遇错失。

EntMTP引入了一个无需训练的调度器,该调度器通过实时评估局部生成熵,从一组任务特定的帕累托最优树拓扑中动态切换。它能够自适应地在低熵区域采用深度推测(例如一次预测多个令牌),在高熵区域则切换到保守推测(仅预测少数令牌),从而在不牺牲生成质量的前提下最大化预期接受令牌吞吐量。实验在Humaneval、ShareGPT、GSM8k和Litbench等基准上进行。EntMTP相比Hydra基线实现一致1.15倍加速,相比Medusa基线峰值加速达1.36倍。

该方法的优点在于无需对现有MTP模型进行重新训练或微调,可直接应用于已部署的系统。论文还指出,EntMTP的调度器设计轻量,几乎不引入额外开销,使其特别适用于实际推理部署。研究团队在论文中提供了7页正文和5张图表,详细解释了调度器的工作原理、帕累托最优树的构建方法以及实验结果。代码、数据和相关资源也已在arXiv页面公开。

EntMTP的提出为LLM的高效推理开辟了新思路。它不仅提升了吞吐量,还可能影响模型选型、推理成本控制和产品能力边界。未来,该方法有望与量化、蒸馏等技术结合,进一步优化资源受限环境下的推理效率。这一研究成果对AI工程和研究社区都具有重要参考价值。