基於扁平度的理論最優量化
本文提出一種新的量化指標“扁平度”來衡量異常值分佈,並據此推匯出理論最優解。作者進一步提出雙向對角量化(BDQ)框架,透過學習到的對角操作將異常值分散到矩陣維度中,顯著提升了大語言模型低位寬量化的效能。實驗表明,BDQ在LLaMA-3-8B上W4A4量化精度下降不足1%,在DeepSeek-R1-Distill-LLaMA-70B的W2A4KV16任務中效能差距縮小39.1%。
文章情報
要點
- 提出Flatness指標量化異常值分佈,並推導理論最優解
- BDQ框架透過雙向對角變換分散異常值
- W4A4量化LLaMA-3-8B精度下降<1%
- W2A4KV16量化效能差距縮小39.1%
為什麼重要
這條新聞值得關注,因為提出Flatness指標量化異常值分佈,並推導理論最優解。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
後訓練量化已成為壓縮和加速大語言模型推理的主流技術。然而,啟用值中的異常值嚴重損害模型效能,尤其是在低位寬下。現有方法嘗試透過線性變換減輕異常值,但本文作者發現變換後的權重和啟用仍存在集中的異常值模式。
針對這一問題,來自多家機構的研究人員首先建模了量化誤差與異常值之間的數學關係,並引入新指標“扁平度”來定量描述異常值分佈。在此基礎上,他們推匯出針對扁平度的理論最優解。這一理論貢獻為理解量化誤差的本質提供了新的視角。
基於這些洞見,團隊提出了雙向對角量化(BDQ)框架。BDQ透過學習的對角操作,將異常值幅度策略性地分散到矩陣維度中,從而有效打破異常值的集中模式。該方法不僅具有理論依據,而且在實際部署中易於實現。
大量實驗表明,BDQ建立了新的量化基準。在LLaMA-3-8B模型上,W4A4量化精度損失小於1%。在更具挑戰性的W2A4KV16實驗中,與現有最優方法相比,BDQ在DeepSeek-R1-Distill-LLaMA-70B模型上將效能差距縮小了39.1%。這表明BDQ在極端低位寬場景下具有顯著優勢。
該研究不僅提供了理論上的最優解,還透過實踐驗證了其有效性,為低位寬大模型部署提供了重要解決方案。論文包含16頁正文和2幅圖表,由Xiusheng Huang等7位作者共同完成,於2026年5月11日提交至arXiv預印本平臺。該工作有望推動大語言模型在資源受限裝置上的廣泛應用。