2026-06-29 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-29 16:06 UTC+8

EntMTP: 基於熵引導的多令牌預測加速大模型推理

EntMTP是一種無需訓練的調度器，通過根據局部生成熵動態切換樹注意力拓撲，在低熵區域進行深度推測，高熵區域保守推測，從而在不犧牲生成質量的前提下，最大化吞吐量。在多個基準測試中，相比Hydra和Medusa分別實現1.15倍和最高1.36倍的加速。

來源arXiv Computational Linguistics作者: Carrie Chen

近日，一篇題為《EntMTP: Accelerating LLM Inference with Entropy Guided Multi Token Prediction》的研究論文在arXiv上發佈（編號2606.27550），由Carrie Chen撰寫，於2026年6月25日提交。該論文提出了一種名為EntMTP的新型推理加速方法，旨在解決大型語言模型（LLM）在自推測解碼中存在的效率瓶頸。

多令牌預測（MTP）已被證明能提升訓練數據密度和文本生成質量，併成為自推測解碼的標準方法。然而，現有使用MTP頭的模型（如Hydra和Medusa）採用固定的靜態樹注意力拓撲，導致推測深度在整個生成過程中保持不變，與自然語言的熵模式嚴重不匹配。低熵區域（如常見短語或重複模式）可支持可靠的多步草稿，而高熵區域（如創意寫作或技術細節）則需要更保守的推測。這一錯配導致驗證計算量浪費或機遇錯失。

EntMTP引入了一個無需訓練的調度器，該調度器通過實時評估局部生成熵，從一組任務特定的帕累托最優樹拓撲中動態切換。它能夠自適應地在低熵區域採用深度推測（例如一次預測多個令牌），在高熵區域則切換到保守推測（僅預測少數令牌），從而在不犧牲生成質量的前提下最大化預期接受令牌吞吐量。實驗在Humaneval、ShareGPT、GSM8k和Litbench等基準上進行。EntMTP相比Hydra基線實現一致1.15倍加速，相比Medusa基線峯值加速達1.36倍。

該方法的優點在於無需對現有MTP模型進行重新訓練或微調，可直接應用於已部署的系統。論文還指出，EntMTP的調度器設計輕量，幾乎不引入額外開銷，使其特別適用於實際推理部署。研究團隊在論文中提供了7頁正文和5張圖表，詳細解釋了調度器的工作原理、帕累托最優樹的構建方法以及實驗結果。代碼、數據和相關資源也已在arXiv頁面公開。

EntMTP的提出為LLM的高效推理開闢了新思路。它不僅提升了吞吐量，還可能影響模型選型、推理成本控制和產品能力邊界。未來，該方法有望與量化、蒸餾等技術結合，進一步優化資源受限環境下的推理效率。這一研究成果對AI工程和研究社區都具有重要參考價值。