AI News HubLIVE
站内改写1 分钟阅读

FAIR-Calib:面向扩散大语言模型的后训练量化的前沿感知不稳定性重加权校准

扩散大语言模型(dLLMs)在迭代精炼令牌时存在“稳定滞后”问题,早期决策即使已提交仍很脆弱。后训练量化(PTQ)错误容易翻转这些边界决策并永久锁定放大。为此,本文提出FAIR-Calib,一个两阶段PTQ框架:第一阶段探测全精度教师以估计结合前沿命中与掩蔽阶段可靠性的位置先验;第二阶段通过最小化重加权隐藏状态MSE执行离策略逐层校准,优先保护脆弱的前沿状态。理论上证明加权目标是输出KL散度的代理。实验表明,FAIR-Calib在LLaDA和Dream模型上持续优于最先进基线,显著减少了前沿决策翻转和后提交不匹配。

来源arXiv Machine Learning作者: Haoyu Huang, Linlin Yang, Sheng Xu, Boyu Liu, Guodong Guo, Zhongqian Fu, Hang Zhou, Baochang Zhang

扩散大语言模型(dLLMs)是一种新兴的生成模型,通过迭代精炼令牌来产生输出。然而,这些模型在提交决策后存在一个被称为“稳定滞后”的问题:早期做出的决策即使已被写入,仍然非常脆弱。这是因为dLLMs的生成过程不同于传统自回归模型,它们会反复修改令牌直到最后阶段才确定,但一旦提交,决策就不可逆。后训练量化(PTQ)过程中引入的误差很容易在“写前沿”(即决策最终确定的边界)翻转原本处于边缘的决策,而这些错误决策一旦被锁定,就会永久保留并进一步放大,严重影响模型性能。

为了应对这一挑战,研究人员提出了FAIR-Calib(Frontier-Aware Instability-Reweighted Calibration),一种专门针对dLLMs的两阶段后训练量化框架。该方法的核心在于识别并保护模型在生成过程中那些容易出错的边界状态。首先,在第一阶段,算法通过探测一个全精度的教师模型来估计“位置先验”。这个先验结合了两个关键信息:一是“前沿命中”,即哪些令牌位置处于容易翻转的写前沿;二是掩蔽阶段的可靠性,即某些中间状态在量化下的稳定性。通过这种方式,FAIR-Calib能够准确找出需要重点保护的脆弱区域。

进入第二阶段后,FAIR-Calib采用了一种离策略的逐层校准方法。具体而言,它最小化一个经过重权重的隐藏状态均方误差(MSE),从而优先保护那些脆弱的前沿状态。这种方法不需要进行昂贵的端到端扩散完整展开,大大降低了计算成本。此外,研究团队从理论上证明了这一加权目标可以看作是输出KL散度的有效代理,为方法的有效性提供了理论支撑。实验结果表明,FAIR-Calib在LLaDA和Dream(W4A4)模型上一致超越了现有的最先进基线。它不仅显著减少了前沿决策的翻转次数,还有效抑制了提交后不匹配现象。该工作已在2026年国际机器学习大会(ICML 2026)上以海报形式发表,并在多个不同基准测试中展现出优异性能,为扩散语言模型的量化部署提供了可靠解决方案。