量化破壞對齊:壓縮大語言模型中跨模型和精度水平的偏差出現
研究發現,對大語言模型進行後訓練量化壓縮(如3位精度)會導致6-21%的原本無偏項目出現新的刻板行為,且模型選擇“未知”答案的意願下降17.4%。標準質量指標(如困惑度)幾乎不受影響,表明聚合指標無法捕捉公平性關鍵退化。
文章情報
要點
- 量化壓縮即使是對齊後的模型也可能重新引入偏差。
- 3位量化導致6-21%的無偏項目出現刻板行為。
- 模型選擇“未知”答案的意願下降17.4%。
- 困惑度等標準指標遺漏了公平性關鍵退化。
為甚麼重要
這條新聞值得關注,因為量化壓縮即使是對齊後的模型也可能重新引入偏差。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
一項新研究揭示了量化壓縮對大語言模型(LLM)安全性的隱藏風險。該論文題為“Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels”,已被IEEE Cloud Summit 2026接收。研究者對三個指令調優模型(Qwen2.5-7B、Mistral-7B、Phi-3.5-mini)在五個精度水平(BF16至3位)上進行了系統性評估,使用BBQ偏差基準測試中的12,148個項目,基於5個隨機種子共執行911,100次推理。
結果顯示,3位量化導致6-21%的原本無偏項目表現出新的刻板行為,且這種偏差呈現清晰的劑量-反應模式(通過邏輯迴歸確認)。同時,模型選擇“未知”答案的傾向下降17.4%,表明模型在壓縮後更少迴避有偏判斷。更重要的是,這些變化未反映在標準質量指標中:所有模型在8位時困惑度增加不到0.5%,在4位時增加不到3%,但4位時已有2.5-5.6%的項目出現新偏差。
該研究強調,現有聚合評估指標系統性地遺漏了公平性關鍵退化,亟需提出質量感知的壓縮協議,在部署前顯式測試偏差出現。論文作者Plawan Kumar Rath等指出,僅依賴困惑度等代理指標會掩蓋壓縮對安全對齊的破壞效應。這項發現對於雲和邊緣部署中LLM的壓縮實踐具有重要警示意義。