大型Transformer模型推理最佳化
全面概述最佳化大型Transformer模型推理的技術,包括蒸餾、量化、剪枝、稀疏化、混合專家和架構改進。文章討論了記憶體佔用和低並行性等挑戰,並提出了減少記憶體使用、計算和延遲的方法。
大型Transformer模型已成為自然語言處理和其他領域的核心,但其推理成本極高,主要源於巨大的記憶體佔用(如KV快取可達3TB)和低並行性。本文綜述了多種最佳化技術,包括網路壓縮和架構改進,旨在減少記憶體、計算和延遲。
知識蒸餾透過將教師模型的知識轉移到更小的學生模型來加速推理。DistilBERT成功將BERT引數減少40%,同時保持97%的效能,速度提升71%。蒸餾可輕鬆與量化或剪枝結合。
量化分為訓練後量化(PTQ)和量化感知訓練(QAT)。Transformer量化的挑戰在於啟用值的動態範圍大,尤其是存在異常特徵。混合精度方法如LLM.int8()將異常值保留在高精度,其餘量化到INT8。細粒度量化如組量化和令牌級量化提高了精度。基於二階資訊的HAWQ方法識別敏感引數。SmoothQuant透過將啟用異常平滑到權重,實現W8A8量化,硬體效率更高。QAT將量化整合到訓練中,通常使用蒸餾損失。
剪枝移除不重要權重。幅度剪枝簡單有效,漸進式幅度剪枝(GMP)在訓練中逐步增加稀疏性。N:M結構化稀疏(如2:4)得到硬體支援,如Nvidia A100。Top-KAST在訓練中維持恆定稀疏性。稀疏化Transformer對FFN和注意力層應用動態稀疏,實現37倍加速。
混合專家(MoE)每個令牌僅啟用部分專家,減少計算。路由策略如批次優先順序路由(BPR)優先處理重要令牌。任務級MoE將任務分組實現靜態路由。核心改進如分層全交換減少通訊開銷。
架構最佳化方面,稀疏注意力模式(固定、組合、可學習)降低二次複雜度。迴圈機制如Transformer-XL擴充套件上下文。記憶體節省設計包括Linformer的低秩投影和多查詢注意力。自適應注意力學習最優注意力範圍。這些技術共同使大型Transformer推理更加實用。未來工作可能結合這些方法以獲得更大收益。