Mix-QVLA:面向视觉-语言-动作模型的混合精度量化框架
Mix-QVLA是一种任务证据感知的混合精度后训练量化框架,专门针对视觉-语言-动作(VLA)模型设计。它通过评估量化对任务相关证据的保留程度,动态调整各层精度,在保证高精度的同时大幅降低内存占用和提升推理速度。在LIBERO基准上,该框架将OpenVLA-OFT模型从15.4 GB压缩至4.1 GB,成功率达96.3%,推理速度提升1.52倍。
近年来,视觉-语言-动作(VLA)模型在机器人操控等任务中展现出巨大潜力,但其巨大的计算和存储成本严重限制了在边缘设备上的部署。来自罗彻斯特理工学院(RIT)的研究团队提出了一种名为Mix-QVLA的任务证据感知混合精度量化框架,旨在解决这一难题。Mix-QVLA是一种后训练量化(PTQ)方法,其核心思想是评估量化过程是否保留了任务相关的关键证据。
具体而言,该框架将每个量化变体与全精度的动作标记参考决策进行锚定,通过计算边界激活的归一化梯度加权任务证据图,并利用证据质量和归因分布失真指标比较全精度和量化图,从而捕捉决策支持证据在强度和分配上的变化。为了将边界级退化转化为层级的敏感性分数,Mix-QVLA引入了一种软瓶颈目标函数。与传统的固定敏感性设定不同,该框架还会对任务执行过程中的敏感性进行动态建模,捕捉不同阶段中层重要性的变化,而不是假定一个固定的敏感性分布。这些证据和时间感知的分数最终用于指导混合精度比特分配,在模型大小和BitOps预算下优化资源利用。
研究团队在OpenVLA风格的策略上进行了广泛评估,特别是在LIBERO基准测试中取得了显著成果。与BF16模型相比,Mix-QVLA将OpenVLA-OFT模型的内存占用从15.4 GB降低至4.1 GB,降幅高达73%,而平均成功率仅从97.1%微降至96.3%。同时,推理速度提升了1.52倍。这一结果证明了Mix-QVLA在保持高精度的同时显著提升效率的能力。该论文由Navin Ranjan和Andreas Savakis撰写,已于2026年6月17日提交至arXiv。
Mix-QVLA为VLA模型的低比特部署提供了一种全新的精度-效率权衡方案,尤其适用于需要实时响应的机器人应用场景。未来,该框架有望推广到更广泛的视觉-语言模型领域,为解决大型模型在资源受限设备上的部署问题提供重要参考。