AI News HubLIVE
站内改写1 分鐘閱讀

利用移動NPU實現高效的端側擴散大語言模型推理

本文提出llada.cpp,首個針對移動NPU優化的擴散大語言模型推理框架。通過多塊投機解碼、雙路徑漸進修正和交換優化內存運行時三項技術,在保證生成質量的同時,將LLaDA-8B的生成延遲較CPU基線降低17-42倍。

來源arXiv Machine Learning作者: Tuowei Wang, Yanfan Sun, Ju Ren

擴散大語言模型(dLLM)通過並行去噪多個token來加速生成過程,特別適合對延遲敏感的移動端推理。然而,重複的去噪操作在智能手機上引入了大量的計算開銷。移動神經處理單元(NPU)雖然提供了高吞吐量的密集矩陣計算能力,但高效利用它們仍面臨三大挑戰:首先,token的提交會導致每塊有效負載的縮減,使得NPU的計算資源無法充分利用;其次,token的修訂使得KV緩存的重用變得複雜,容易引入額外的延遲;最後,NPU可見的地址空間有限,導致頻繁的重映射和數據傳輸,帶來高昂的開銷。

針對這些問題,本文提出了llada.cpp——首個面向NPU的擴散大語言模型移動端推理框架。該框架通過三種核心技術將塊級dLLM推理與移動NPU的執行特性對齊:

  1. 多塊投機解碼:在當前塊解碼的後期階段,利用推測的未來塊token來填充萎縮的工作負載,從而提高NPU的利用率。這種方法類似於傳統的投機解碼,但針對NPU的並行特性進行了優化。
  1. 雙路徑漸進修正:允許已提交的token在穩定前保持可修訂狀態,並通過CPU側路徑刷新不穩定token,避免阻塞密集的NPU執行。該技術通過分離修訂路徑,實現了非阻塞的修正過程,顯著提升了推理效率。
  1. 交換優化內存運行時:壓縮NPU可見的地址佈局,並將數據準備與NPU計算重疊,以減少重映射和傳輸開銷。通過優化內存交換策略,該技術大幅降低了數據搬運的延遲。

llada.cpp被實現為端到端的推理框架,並在多種硬件平台(包括不同的移動SoC)和dLLM工作負載上進行了評估。實驗結果表明,在保持生成質量的前提下,該框架將LLaDA-8B模型的生成延遲相比CPU基線(使用前綴KV緩存重用)降低了17至42倍。這一成果不僅驗證了NPU在移動端加速dLLM推理的巨大潛力,也為未來移動設備上的高性能AI應用提供了重要的技術基礎。