2023-01-11 01:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

大型Transformer模型推理最佳化

全面概述最佳化大型Transformer模型推理的技術，包括蒸餾、量化、剪枝、稀疏化、混合專家和架構改進。文章討論了記憶體佔用和低並行性等挑戰，並提出了減少記憶體使用、計算和延遲的方法。

大型Transformer模型已成為自然語言處理和其他領域的核心，但其推理成本極高，主要源於巨大的記憶體佔用（如KV快取可達3TB）和低並行性。本文綜述了多種最佳化技術，包括網路壓縮和架構改進，旨在減少記憶體、計算和延遲。

知識蒸餾透過將教師模型的知識轉移到更小的學生模型來加速推理。DistilBERT成功將BERT引數減少40%，同時保持97%的效能，速度提升71%。蒸餾可輕鬆與量化或剪枝結合。

量化分為訓練後量化（PTQ）和量化感知訓練（QAT）。Transformer量化的挑戰在於啟用值的動態範圍大，尤其是存在異常特徵。混合精度方法如LLM.int8()將異常值保留在高精度，其餘量化到INT8。細粒度量化如組量化和令牌級量化提高了精度。基於二階資訊的HAWQ方法識別敏感引數。SmoothQuant透過將啟用異常平滑到權重，實現W8A8量化，硬體效率更高。QAT將量化整合到訓練中，通常使用蒸餾損失。

剪枝移除不重要權重。幅度剪枝簡單有效，漸進式幅度剪枝（GMP）在訓練中逐步增加稀疏性。N:M結構化稀疏（如2:4）得到硬體支援，如Nvidia A100。Top-KAST在訓練中維持恆定稀疏性。稀疏化Transformer對FFN和注意力層應用動態稀疏，實現37倍加速。

混合專家（MoE）每個令牌僅啟用部分專家，減少計算。路由策略如批次優先順序路由（BPR）優先處理重要令牌。任務級MoE將任務分組實現靜態路由。核心改進如分層全交換減少通訊開銷。

架構最佳化方面，稀疏注意力模式（固定、組合、可學習）降低二次複雜度。迴圈機制如Transformer-XL擴充套件上下文。記憶體節省設計包括Linformer的低秩投影和多查詢注意力。自適應注意力學習最優注意力範圍。這些技術共同使大型Transformer推理更加實用。未來工作可能結合這些方法以獲得更大收益。