2026-05-18 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

量化破坏对齐：压缩大语言模型中跨模型和精度水平的偏差出现

研究发现，对大语言模型进行后训练量化压缩（如3位精度）会导致6-21%的原本无偏项目出现新的刻板行为，且模型选择“未知”答案的意愿下降17.4%。标准质量指标（如困惑度）几乎不受影响，表明聚合指标无法捕捉公平性关键退化。

来源arXiv Machine Learning作者: Plawan Kumar Rath, Rahul Maliakkal

一项新研究揭示了量化压缩对大语言模型（LLM）安全性的隐藏风险。该论文题为“Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels”，已被IEEE Cloud Summit 2026接收。研究者对三个指令调优模型（Qwen2.5-7B、Mistral-7B、Phi-3.5-mini）在五个精度水平（BF16至3位）上进行了系统性评估，使用BBQ偏差基准测试中的12,148个项目，基于5个随机种子共执行911,100次推理。

结果显示，3位量化导致6-21%的原本无偏项目表现出新的刻板行为，且这种偏差呈现清晰的剂量-反应模式（通过逻辑回归确认）。同时，模型选择“未知”答案的倾向下降17.4%，表明模型在压缩后更少回避有偏判断。更重要的是，这些变化未反映在标准质量指标中：所有模型在8位时困惑度增加不到0.5%，在4位时增加不到3%，但4位时已有2.5-5.6%的项目出现新偏差。

该研究强调，现有聚合评估指标系统性地遗漏了公平性关键退化，亟需提出质量感知的压缩协议，在部署前显式测试偏差出现。论文作者Plawan Kumar Rath等指出，仅依赖困惑度等代理指标会掩盖压缩对安全对齐的破坏效应。这项发现对于云和边缘部署中LLM的压缩实践具有重要警示意义。