2026-06-15站内改写2 分で読了更新: 2026-06-15

モバイルNPUを活用したオンデバイス拡散LLM推論の効率化

本論文では、スマートフォン上での拡散大規模言語モデル（dLLM）推論を高速化する初のNPU対応フレームワーク「llada.cpp」を提案。マルチブロック投機的デコード、デュアルパス漸進的修正、スワップ最適化メモリランタイムの3手法により、LLaDA-8Bの生成レイテンシをCPUベースライン比17～42倍削減し、品質を維持する。

ソースarXiv Machine Learning著者: Tuowei Wang, Yanfan Sun, Ju Ren

記事インテリジェンス

エンジニア上級

要点

拡散LLMは並列トークン生成によりモバイル推論を高速化するが、繰り返しのデノイジングで計算負荷が増大。NPUは高スループットだが、ワークロード縮小やKVキャッシュ再利用、メモリ制約が課題。
llada.cppはマルチブロック投機的デコードで縮小ワークロードを補填、デュアルパス漸進的修正でNPUを停止させずに不安定トークンを更新、スワップ最適化メモリでオーバーヘッドを低減。
多様なハードウェアとdLLMワークロードで17～42倍の高速化を実現し、生成品質は維持。

重要な理由

このニュースが重要なのは、拡散LLMは並列トークン生成によりモバイル推論を高速化するが、繰り返しのデノイジングで計算負荷が増大。NPUは高スループットだが、ワークロード縮小やKVキャッシュ再利用、メモリ制約が課題ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

拡散大規模言語モデル（dLLM）は、複数のトークンを並列にデノイズすることで生成を高速化し、レイテンシに敏感なモバイル推論に有望である。しかし、繰り返しのデノイジングはスマートフォン上で多大な計算を必要とする。モバイルニューラルプロセッシングユニット（NPU）は高スループットの密行列計算を提供するが、効率的に活用するには課題がある：トークン確定によりブロック単位の有効ワークロードが縮小し、トークン修正はKVキャッシュの再利用を複雑にし、NPU可視アドレス空間の制限がリマッピングとデータ転送のオーバーヘッドを招く。

本論文では、スマートフォン上のdLLMを高速化する初のNPU対応推論フレームワーク「llada.cpp」を提案する。llada.cppは、ブロック単位のdLLM推論をモバイルNPUの実行特性に合わせるため、以下の3つの技術を導入する。

マルチブロック投機的デコード：後期の現在ブロックデコードにおける縮小ワークロードを、投機的な将来ブロックトークンで補充する。これにより、NPUの利用効率が向上する。

デュアルパス漸進的修正：確定したトークンを安定するまで修正可能に保ち、不安定なトークンをCPU側パスで更新することで、高負荷なNPU実行を停止させない。この技術は、修正パスを分離することで非ブロッキングな修正を実現し、推論効率を大幅に向上させる。

スワップ最適化メモリランタイム：NPU可視アドレスレイアウトを圧縮し、データステージングとNPU計算をオーバーラップさせることで、リマッピングと転送のオーバーヘッドを削減する。メモリ交換戦略の最適化により、データ転送のレイテンシが大幅に低減される。

llada.cppはエンドツーエンドのフレームワークとして実装され、多様なハードウェアプラットフォーム（異なるモバイルSoCを含む）とdLLMワークロードで評価された。実験結果によれば、生成品質を維持したまま、LLaDA-8Bモデルの生成レイテンシをプレフィックスKVキャッシュ再利用時のCPUベースラインと比較して17倍から42倍削減した。この成果は、モバイルデバイス上でのdLLM推論におけるNPUの大きな可能性を実証するものであり、将来の高性能AIアプリケーションに重要な技術基盤を提供する。