EntMTP: 基於熵引導的多令牌預測加速大模型推理
EntMTP是一種無需訓練的調度器,通過根據局部生成熵動態切換樹注意力拓撲,在低熵區域進行深度推測,高熵區域保守推測,從而在不犧牲生成質量的前提下,最大化吞吐量。在多個基準測試中,相比Hydra和Medusa分別實現1.15倍和最高1.36倍的加速。
近日,一篇題為《EntMTP: Accelerating LLM Inference with Entropy Guided Multi Token Prediction》的研究論文在arXiv上發佈(編號2606.27550),由Carrie Chen撰寫,於2026年6月25日提交。該論文提出了一種名為EntMTP的新型推理加速方法,旨在解決大型語言模型(LLM)在自推測解碼中存在的效率瓶頸。
多令牌預測(MTP)已被證明能提升訓練數據密度和文本生成質量,併成為自推測解碼的標準方法。然而,現有使用MTP頭的模型(如Hydra和Medusa)採用固定的靜態樹注意力拓撲,導致推測深度在整個生成過程中保持不變,與自然語言的熵模式嚴重不匹配。低熵區域(如常見短語或重複模式)可支持可靠的多步草稿,而高熵區域(如創意寫作或技術細節)則需要更保守的推測。這一錯配導致驗證計算量浪費或機遇錯失。
EntMTP引入了一個無需訓練的調度器,該調度器通過實時評估局部生成熵,從一組任務特定的帕累托最優樹拓撲中動態切換。它能夠自適應地在低熵區域採用深度推測(例如一次預測多個令牌),在高熵區域則切換到保守推測(僅預測少數令牌),從而在不犧牲生成質量的前提下最大化預期接受令牌吞吐量。實驗在Humaneval、ShareGPT、GSM8k和Litbench等基準上進行。EntMTP相比Hydra基線實現一致1.15倍加速,相比Medusa基線峯值加速達1.36倍。
該方法的優點在於無需對現有MTP模型進行重新訓練或微調,可直接應用於已部署的系統。論文還指出,EntMTP的調度器設計輕量,幾乎不引入額外開銷,使其特別適用於實際推理部署。研究團隊在論文中提供了7頁正文和5張圖表,詳細解釋了調度器的工作原理、帕累托最優樹的構建方法以及實驗結果。代碼、數據和相關資源也已在arXiv頁面公開。
EntMTP的提出為LLM的高效推理開闢了新思路。它不僅提升了吞吐量,還可能影響模型選型、推理成本控制和產品能力邊界。未來,該方法有望與量化、蒸餾等技術結合,進一步優化資源受限環境下的推理效率。這一研究成果對AI工程和研究社區都具有重要參考價值。