2026-05-18 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

量化破壞對齊：壓縮大語言模型中跨模型和精度水平的偏差出現

研究發現，對大語言模型進行後訓練量化壓縮（如3位精度）會導致6-21%的原本無偏項目出現新的刻板行為，且模型選擇“未知”答案的意願下降17.4%。標準質量指標（如困惑度）幾乎不受影響，表明聚合指標無法捕捉公平性關鍵退化。

來源arXiv Machine Learning作者: Plawan Kumar Rath, Rahul Maliakkal

一項新研究揭示了量化壓縮對大語言模型（LLM）安全性的隱藏風險。該論文題為“Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels”，已被IEEE Cloud Summit 2026接收。研究者對三個指令調優模型（Qwen2.5-7B、Mistral-7B、Phi-3.5-mini）在五個精度水平（BF16至3位）上進行了系統性評估，使用BBQ偏差基準測試中的12,148個項目，基於5個隨機種子共執行911,100次推理。

結果顯示，3位量化導致6-21%的原本無偏項目表現出新的刻板行為，且這種偏差呈現清晰的劑量-反應模式（通過邏輯迴歸確認）。同時，模型選擇“未知”答案的傾向下降17.4%，表明模型在壓縮後更少迴避有偏判斷。更重要的是，這些變化未反映在標準質量指標中：所有模型在8位時困惑度增加不到0.5%，在4位時增加不到3%，但4位時已有2.5-5.6%的項目出現新偏差。

該研究強調，現有聚合評估指標系統性地遺漏了公平性關鍵退化，亟需提出質量感知的壓縮協議，在部署前顯式測試偏差出現。論文作者Plawan Kumar Rath等指出，僅依賴困惑度等代理指標會掩蓋壓縮對安全對齊的破壞效應。這項發現對於雲和邊緣部署中LLM的壓縮實踐具有重要警示意義。