ActQuant:面向视觉-语言-动作模型的亚4位动作引导量化
ActQuant是一种针对视觉-语言-动作(VLA)模型的动作引导混合精度后训练量化框架,通过两阶段方法实现亚4位权重量化,同时在LIBERO基准测试和真实UR3机械臂上保持高成功率,显著减小模型内存占用。
文章情报
要点
- ActQuant采用动作感知的混合精度量化,在亚4位权重量化下保持VLA模型性能。
- 两阶段框架包括跨张量位宽分配器和内张量缩放优化器,聚焦对动作预测关键的权重。
- 配合OmniModel.cpp部署管线,在LIBERO上达到2.5 bpw,压缩主干网络5.3倍。
- 在真实UR3机械臂上,量化后的π0.5模型成功率不变,内存占用减少2.5倍。
为什么重要
这条新闻值得关注,因为ActQuant采用动作感知的混合精度量化,在亚4位权重量化下保持VLA模型性能。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
视觉-语言-动作(VLA)模型在具身智能领域展现出强大的动作生成能力,但其高昂的计算成本使得在边缘设备上部署变得不切实际。为解决这一难题,研究人员提出了ActQuant,一种新颖的动作引导混合精度后训练量化(PTQ)框架,专门针对VLA模型实现亚4位权重量化。
ActQuant由两个阶段组成:首先,跨张量位宽分配器根据每个权重矩阵对预测智能体动作的贡献程度,为其分配单一的位宽;其次,内张量缩放优化器利用动作感知曲率调整每块的量化尺度,将动态范围集中在最影响控制的权重上。这种设计有效克服了现有PTQ方法在低位宽下的性能严重下降问题。其核心创新在于利用动作预测任务本身来指导量化位宽的分配和缩放因子的优化,从而在极端压缩下依然保持模型对动作的高精度预测能力。
为了将激进量化带来的设备端优势真正落地,研究团队还推出了OmniModel.cpp,这是一个智能转换管线,能够将各类架构移植到原生C/C++运行环境,并配备高效的低位内核。该工具链支持从PyTorch等框架直接转换,生成优化的二进制文件,使得量化后的模型可以高效运行在边缘设备上,而无需依赖复杂的深度学习框架。
ActQuant在LIBERO基准测试和真实世界的6自由度UR3机械臂上均进行了评估。在LIBERO上,ActQuant是唯一能在3位每权重或以下运行的方法,在OpenVLA-OFT和π0.5上分别保持95.0%和94.8%的性能。进一步推向极限时,ActQuant在OpenVLA-OFT上以2.5 bpw达到90.1%的性能,将骨干网络从14.3 GB压缩至2.7 GB(压缩比5.3倍)。在真实UR3机械臂上,经过ActQuant量化的π0.5模型在保持基准成功率的同时,将内存占用减少了2.5倍。这些结果表明,ActQuant不仅能在模拟环境中实现高效压缩,还能在真实机器人任务中保持原有模型的成功率,为VLA模型的边缘部署提供了切实可行的方案。
ActQuant为VLA模型的高效边缘部署提供了一条可行路径,在保持强大动作生成能力的同时,大幅降低了存储和计算需求。未来,该技术有望推动具身智能在实际场景中的广泛应用,降低硬件门槛,加速机器人从实验室走向现实。