2026-06-04 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

LiftQuant：通过维度提升与投影实现连续位宽的大语言模型

本文介绍LiftQuant，一种通过“提升-投影”机制实现连续位宽控制的新框架。该方法将低维权重向量近似为高维1比特晶格的投影，实现位宽准连续调节。实验表明，LiftQuant可将70B模型压缩至2.4比特，精确适配24GB GPU，性能超越现有2比特模型。该论文已被ICML 2026接收为Spotlight。

来源arXiv Machine Learning作者: Liulu He, XuanAng Liu, Juntao Liu, Taolue Feng, Ting Lu, Chunsheng Gan, Zhiyv Peng, Yuan Du, Huanrui Yang, Yijiang Liu, Li Du

文章情报

工程师进阶

要点

现有量化方法受限于整数位宽，导致部署时出现“部署缺口”，无法最优适配内存预算。
LiftQuant的核心创新是“提升-投影”机制：从高维提升空间投影1比特晶格，通过调整提升维度与原始维度的比率实现连续位宽。
该方法生成结构化非均匀码本，兼具向量量化的表达能力和硬件友好的线性变换与1比特均匀量化器。
在24GB GPU上，LiftQuant将70B模型压缩至2.4比特，性能显著优于同设备上最先进的2比特模型。

为什么重要

这条新闻值得关注，因为现有量化方法受限于整数位宽，导致部署时出现“部署缺口”，无法最优适配内存预算。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

大语言模型（LLM）的部署面临一个根本性挑战：现有的量化方法通常局限于固定的整数位宽，例如2比特或3比特。这种刚性导致模型无法精确匹配特定硬件的内存预算，形成所谓的“部署缺口”。为了解决这一问题，研究者提出了LiftQuant框架，该框架通过创新的“提升-投影”机制实现了准连续的位宽控制，从而能够根据可用内存进行帕累托最优的部署。

LiftQuant的核心思想源于一个巧妙的几何直觉：将低维的权重向量视为从高维空间投影下来的简单结构。具体来说，该机制首先将低维权重提升到一个更高维的“提升空间”，在这个高维空间中，权重可以用一个简单的1比特晶格来近似；然后将这个高维晶格投影回原始低维空间。这样，由于提升维度的灵活性，有效位宽可以连续调节——它由提升维度与原始维度的比率决定。这一比率可以是非整数的，使得位宽可以取任意值，例如2.4比特，从而精确匹配24GB GPU的内存。

该投影过程生成的结构化码本是非均匀的，它保留了向量量化（VQ）的表达能力，但解码过程仅涉及线性变换和1比特均匀量化器，这使得LiftQuant保持了对硬件友好的特性。相比之下，传统的VQ方法通常需要更复杂的解码步骤。

实验结果表明，LiftQuant在性能上具有显著优势。以70B参数的LLM为例，LiftQuant将其压缩至2.4比特后，可以完美适配24GB GPU，并且其性能大幅超过了同设备上采用最先进2比特量化方法的模型。这一突破意味着，开发者现在可以根据具体的内存预算灵活调整模型精度，而不必妥协于固定的比特数。

该论文已被ICML 2026接收为Spotlight论文，代码和检查点已在GitHub上开源（https://github.com/Heliulu/LiftQuant），为社区提供了进一步研究的基础。LiftQuant的出现为高效LLM部署开辟了新的方向，有望在边缘计算、移动设备以及资源受限的环境中发挥重要作用。