AI News HubLIVE
站内改写2 分で読了

モバイルNPUを活用したオンデバイス拡散LLM推論の効率化

本論文では、スマートフォン上での拡散大規模言語モデル(dLLM)推論を高速化する初のNPU対応フレームワーク「llada.cpp」を提案。マルチブロック投機的デコード、デュアルパス漸進的修正、スワップ最適化メモリランタイムの3手法により、LLaDA-8Bの生成レイテンシをCPUベースライン比17~42倍削減し、品質を維持する。

ソースarXiv Machine Learning著者: Tuowei Wang, Yanfan Sun, Ju Ren

拡散大規模言語モデル(dLLM)は、複数のトークンを並列にデノイズすることで生成を高速化し、レイテンシに敏感なモバイル推論に有望である。しかし、繰り返しのデノイジングはスマートフォン上で多大な計算を必要とする。モバイルニューラルプロセッシングユニット(NPU)は高スループットの密行列計算を提供するが、効率的に活用するには課題がある:トークン確定によりブロック単位の有効ワークロードが縮小し、トークン修正はKVキャッシュの再利用を複雑にし、NPU可視アドレス空間の制限がリマッピングとデータ転送のオーバーヘッドを招く。

本論文では、スマートフォン上のdLLMを高速化する初のNPU対応推論フレームワーク「llada.cpp」を提案する。llada.cppは、ブロック単位のdLLM推論をモバイルNPUの実行特性に合わせるため、以下の3つの技術を導入する。

  1. マルチブロック投機的デコード:後期の現在ブロックデコードにおける縮小ワークロードを、投機的な将来ブロックトークンで補充する。これにより、NPUの利用効率が向上する。
  1. デュアルパス漸進的修正:確定したトークンを安定するまで修正可能に保ち、不安定なトークンをCPU側パスで更新することで、高負荷なNPU実行を停止させない。この技術は、修正パスを分離することで非ブロッキングな修正を実現し、推論効率を大幅に向上させる。
  1. スワップ最適化メモリランタイム:NPU可視アドレスレイアウトを圧縮し、データステージングとNPU計算をオーバーラップさせることで、リマッピングと転送のオーバーヘッドを削減する。メモリ交換戦略の最適化により、データ転送のレイテンシが大幅に低減される。

llada.cppはエンドツーエンドのフレームワークとして実装され、多様なハードウェアプラットフォーム(異なるモバイルSoCを含む)とdLLMワークロードで評価された。実験結果によれば、生成品質を維持したまま、LLaDA-8Bモデルの生成レイテンシをプレフィックスKVキャッシュ再利用時のCPUベースラインと比較して17倍から42倍削減した。この成果は、モバイルデバイス上でのdLLM推論におけるNPUの大きな可能性を実証するものであり、将来の高性能AIアプリケーションに重要な技術基盤を提供する。