2026-06-29 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-29 16:06 UTC+8

EntMTP: 基于熵引导的多令牌预测加速大模型推理

EntMTP是一种无需训练的调度器，通过根据局部生成熵动态切换树注意力拓扑，在低熵区域进行深度推测，高熵区域保守推测，从而在不牺牲生成质量的前提下，最大化吞吐量。在多个基准测试中，相比Hydra和Medusa分别实现1.15倍和最高1.36倍的加速。

来源arXiv Computational Linguistics作者: Carrie Chen

近日，一篇题为《EntMTP: Accelerating LLM Inference with Entropy Guided Multi Token Prediction》的研究论文在arXiv上发布（编号2606.27550），由Carrie Chen撰写，于2026年6月25日提交。该论文提出了一种名为EntMTP的新型推理加速方法，旨在解决大型语言模型（LLM）在自推测解码中存在的效率瓶颈。

多令牌预测（MTP）已被证明能提升训练数据密度和文本生成质量，并成为自推测解码的标准方法。然而，现有使用MTP头的模型（如Hydra和Medusa）采用固定的静态树注意力拓扑，导致推测深度在整个生成过程中保持不变，与自然语言的熵模式严重不匹配。低熵区域（如常见短语或重复模式）可支持可靠的多步草稿，而高熵区域（如创意写作或技术细节）则需要更保守的推测。这一错配导致验证计算量浪费或机遇错失。

EntMTP引入了一个无需训练的调度器，该调度器通过实时评估局部生成熵，从一组任务特定的帕累托最优树拓扑中动态切换。它能够自适应地在低熵区域采用深度推测（例如一次预测多个令牌），在高熵区域则切换到保守推测（仅预测少数令牌），从而在不牺牲生成质量的前提下最大化预期接受令牌吞吐量。实验在Humaneval、ShareGPT、GSM8k和Litbench等基准上进行。EntMTP相比Hydra基线实现一致1.15倍加速，相比Medusa基线峰值加速达1.36倍。

该方法的优点在于无需对现有MTP模型进行重新训练或微调，可直接应用于已部署的系统。论文还指出，EntMTP的调度器设计轻量，几乎不引入额外开销，使其特别适用于实际推理部署。研究团队在论文中提供了7页正文和5张图表，详细解释了调度器的工作原理、帕累托最优树的构建方法以及实验结果。代码、数据和相关资源也已在arXiv页面公开。

EntMTP的提出为LLM的高效推理开辟了新思路。它不仅提升了吞吐量，还可能影响模型选型、推理成本控制和产品能力边界。未来，该方法有望与量化、蒸馏等技术结合，进一步优化资源受限环境下的推理效率。这一研究成果对AI工程和研究社区都具有重要参考价值。