AI News HubLIVE
サイト内リライト2 分で読了

EntMTP: エントロピー誘導型マルチトークン予測によるLLM推論の高速化

EntMTPは、局所的な生成エントロピーに基づいてツリー型アテンショントポロジを動的に切り替える訓練不要のスケジューラです。低エントロピー領域では深い推測を行い、高エントロピー領域では保守的な推測を行うことで、生成品質を損なわずにスループットを最大化します。複数のベンチマークで、Hydraに対して1.15倍、Medusaに対して最大1.36倍の高速化を達成しました。

ソースarXiv Computational Linguistics著者: Carrie Chen

2026年6月25日、Carrie Chen氏によりarXivに投稿された論文「EntMTP: Accelerating LLM Inference with Entropy Guided Multi Token Prediction」(arXiv:2606.27550)は、大規模言語モデル(LLM)の推論を高速化する新しい手法を提案しています。この手法は、エントロピー誘導型マルチトークン予測(EntMTP)と呼ばれ、追加の訓練を必要とせずに既存のモデルに適用可能です。

マルチトークン予測(MTP)は、トレーニング中のデータ密度を高め、テキスト生成品質を向上させることが示されており、自己投機的デコーディングのデファクトスタンダードとなっています。しかし、HydraやMedusaなどの既存のMTPヘッドを備えたモデルは、生成全体を通じて静的なツリー型アテンショントポロジを使用しており、推測深度(検証時の計算量)が文脈によらず一定です。これは自然言語のエントロピーパターンと根本的にミスマッチしており、低エントロピー領域(例:定型句)では信頼性の高いマルチステップドラフトが可能である一方、高エントロピー領域(例:創造的な文章)ではより保守的な推測が必要となります。

EntMTPは、局所生成エントロピーの推定値に基づいて、タスク固有のパレート最適ツリー群から動的にトポロジを切り替える訓練不要のスケジューラです。低エントロピー領域では深い推測を行い、高エントロピー領域では浅い推測を行うことで、生成品質を犠牲にすることなく、全テキスト分布にわたって期待される受理トークンスループットを最大化します。評価はHumaneval、ShareGPT、GSM8k、Litbenchの各ベンチマークで行われ、EntMTPはHydraベースラインに対して一貫して1.15倍、Medusaベースラインに対して最大1.36倍の高速化を達成しました。

本手法の利点は、再訓練や微調整が不要であり、既存のMTPモデルにそのまま適用できる点です。また、スケジューラは軽量であり、実運用でのオーバーヘッドは最小限です。論文は7ページ、5図から構成され、コードやデータはarXivページで公開されています。EntMTPは、LLMの効率的な推論を実現する柔軟で実用的なソリューションを提供し、リソース制約のある環境での展開に貢献するでしょう。