2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

利用移動NPU實現高效的端側擴散大語言模型推理

本文提出llada.cpp，首個針對移動NPU優化的擴散大語言模型推理框架。通過多塊投機解碼、雙路徑漸進修正和交換優化內存運行時三項技術，在保證生成質量的同時，將LLaDA-8B的生成延遲較CPU基線降低17-42倍。

來源arXiv Machine Learning作者: Tuowei Wang, Yanfan Sun, Ju Ren

擴散大語言模型（dLLM）通過並行去噪多個token來加速生成過程，特別適合對延遲敏感的移動端推理。然而，重複的去噪操作在智能手機上引入了大量的計算開銷。移動神經處理單元（NPU）雖然提供了高吞吐量的密集矩陣計算能力，但高效利用它們仍面臨三大挑戰：首先，token的提交會導致每塊有效負載的縮減，使得NPU的計算資源無法充分利用；其次，token的修訂使得KV緩存的重用變得複雜，容易引入額外的延遲；最後，NPU可見的地址空間有限，導致頻繁的重映射和數據傳輸，帶來高昂的開銷。

針對這些問題，本文提出了llada.cpp——首個面向NPU的擴散大語言模型移動端推理框架。該框架通過三種核心技術將塊級dLLM推理與移動NPU的執行特性對齊：

多塊投機解碼：在當前塊解碼的後期階段，利用推測的未來塊token來填充萎縮的工作負載，從而提高NPU的利用率。這種方法類似於傳統的投機解碼，但針對NPU的並行特性進行了優化。

雙路徑漸進修正：允許已提交的token在穩定前保持可修訂狀態，並通過CPU側路徑刷新不穩定token，避免阻塞密集的NPU執行。該技術通過分離修訂路徑，實現了非阻塞的修正過程，顯著提升了推理效率。

交換優化內存運行時：壓縮NPU可見的地址佈局，並將數據準備與NPU計算重疊，以減少重映射和傳輸開銷。通過優化內存交換策略，該技術大幅降低了數據搬運的延遲。

llada.cpp被實現為端到端的推理框架，並在多種硬件平台（包括不同的移動SoC）和dLLM工作負載上進行了評估。實驗結果表明，在保持生成質量的前提下，該框架將LLaDA-8B模型的生成延遲相比CPU基線（使用前綴KV緩存重用）降低了17至42倍。這一成果不僅驗證了NPU在移動端加速dLLM推理的巨大潛力，也為未來移動設備上的高性能AI應用提供了重要的技術基礎。