AI News HubLIVE
站内改写1 分钟阅读

LiftQuant:通过维度提升与投影实现连续位宽的大语言模型

本文介绍LiftQuant,一种通过“提升-投影”机制实现连续位宽控制的新框架。该方法将低维权重向量近似为高维1比特晶格的投影,实现位宽准连续调节。实验表明,LiftQuant可将70B模型压缩至2.4比特,精确适配24GB GPU,性能超越现有2比特模型。该论文已被ICML 2026接收为Spotlight。

来源arXiv Machine Learning作者: Liulu He, XuanAng Liu, Juntao Liu, Taolue Feng, Ting Lu, Chunsheng Gan, Zhiyv Peng, Yuan Du, Huanrui Yang, Yijiang Liu, Li Du

大语言模型(LLM)的部署面临一个根本性挑战:现有的量化方法通常局限于固定的整数位宽,例如2比特或3比特。这种刚性导致模型无法精确匹配特定硬件的内存预算,形成所谓的“部署缺口”。为了解决这一问题,研究者提出了LiftQuant框架,该框架通过创新的“提升-投影”机制实现了准连续的位宽控制,从而能够根据可用内存进行帕累托最优的部署。

LiftQuant的核心思想源于一个巧妙的几何直觉:将低维的权重向量视为从高维空间投影下来的简单结构。具体来说,该机制首先将低维权重提升到一个更高维的“提升空间”,在这个高维空间中,权重可以用一个简单的1比特晶格来近似;然后将这个高维晶格投影回原始低维空间。这样,由于提升维度的灵活性,有效位宽可以连续调节——它由提升维度与原始维度的比率决定。这一比率可以是非整数的,使得位宽可以取任意值,例如2.4比特,从而精确匹配24GB GPU的内存。

该投影过程生成的结构化码本是非均匀的,它保留了向量量化(VQ)的表达能力,但解码过程仅涉及线性变换和1比特均匀量化器,这使得LiftQuant保持了对硬件友好的特性。相比之下,传统的VQ方法通常需要更复杂的解码步骤。

实验结果表明,LiftQuant在性能上具有显著优势。以70B参数的LLM为例,LiftQuant将其压缩至2.4比特后,可以完美适配24GB GPU,并且其性能大幅超过了同设备上采用最先进2比特量化方法的模型。这一突破意味着,开发者现在可以根据具体的内存预算灵活调整模型精度,而不必妥协于固定的比特数。

该论文已被ICML 2026接收为Spotlight论文,代码和检查点已在GitHub上开源(https://github.com/Heliulu/LiftQuant),为社区提供了进一步研究的基础。LiftQuant的出现为高效LLM部署开辟了新的方向,有望在边缘计算、移动设备以及资源受限的环境中发挥重要作用。