2026-06-19站内改写1 分钟阅读更新: 2026-06-19

Mix-QVLA：面向视觉-语言-动作模型的混合精度量化框架

Mix-QVLA是一种任务证据感知的混合精度后训练量化框架，专门针对视觉-语言-动作（VLA）模型设计。它通过评估量化对任务相关证据的保留程度，动态调整各层精度，在保证高精度的同时大幅降低内存占用和提升推理速度。在LIBERO基准上，该框架将OpenVLA-OFT模型从15.4 GB压缩至4.1 GB，成功率达96.3%，推理速度提升1.52倍。

来源arXiv Computer Vision作者: Navin Ranjan, Andreas Savakis

近年来，视觉-语言-动作（VLA）模型在机器人操控等任务中展现出巨大潜力，但其巨大的计算和存储成本严重限制了在边缘设备上的部署。来自罗彻斯特理工学院（RIT）的研究团队提出了一种名为Mix-QVLA的任务证据感知混合精度量化框架，旨在解决这一难题。Mix-QVLA是一种后训练量化（PTQ）方法，其核心思想是评估量化过程是否保留了任务相关的关键证据。

具体而言，该框架将每个量化变体与全精度的动作标记参考决策进行锚定，通过计算边界激活的归一化梯度加权任务证据图，并利用证据质量和归因分布失真指标比较全精度和量化图，从而捕捉决策支持证据在强度和分配上的变化。为了将边界级退化转化为层级的敏感性分数，Mix-QVLA引入了一种软瓶颈目标函数。与传统的固定敏感性设定不同，该框架还会对任务执行过程中的敏感性进行动态建模，捕捉不同阶段中层重要性的变化，而不是假定一个固定的敏感性分布。这些证据和时间感知的分数最终用于指导混合精度比特分配，在模型大小和BitOps预算下优化资源利用。

研究团队在OpenVLA风格的策略上进行了广泛评估，特别是在LIBERO基准测试中取得了显著成果。与BF16模型相比，Mix-QVLA将OpenVLA-OFT模型的内存占用从15.4 GB降低至4.1 GB，降幅高达73%，而平均成功率仅从97.1%微降至96.3%。同时，推理速度提升了1.52倍。这一结果证明了Mix-QVLA在保持高精度的同时显著提升效率的能力。该论文由Navin Ranjan和Andreas Savakis撰写，已于2026年6月17日提交至arXiv。

Mix-QVLA为VLA模型的低比特部署提供了一种全新的精度-效率权衡方案，尤其适用于需要实时响应的机器人应用场景。未来，该框架有望推广到更广泛的视觉-语言模型领域，为解决大型模型在资源受限设备上的部署问题提供重要参考。