2026-06-04 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

LiftQuant：通過維度提升與投影實現連續位寬的大語言模型

本文介紹LiftQuant，一種通過“提升-投影”機制實現連續位寬控制的新框架。該方法將低維權重向量近似為高維1比特晶格的投影，實現位寬準連續調節。實驗表明，LiftQuant可將70B模型壓縮至2.4比特，精確適配24GB GPU，性能超越現有2比特模型。該論文已被ICML 2026接收為Spotlight。

來源arXiv Machine Learning作者: Liulu He, XuanAng Liu, Juntao Liu, Taolue Feng, Ting Lu, Chunsheng Gan, Zhiyv Peng, Yuan Du, Huanrui Yang, Yijiang Liu, Li Du

文章情報

工程師進階

要點

現有量化方法受限於整數位寬，導致部署時出現“部署缺口”，無法最優適配內存預算。
LiftQuant的核心創新是“提升-投影”機制：從高維提升空間投影1比特晶格，通過調整提升維度與原始維度的比率實現連續位寬。
該方法生成結構化非均勻碼本，兼具向量量化的表達能力和硬件友好的線性變換與1比特均勻量化器。
在24GB GPU上，LiftQuant將70B模型壓縮至2.4比特，性能顯著優於同設備上最先進的2比特模型。

為甚麼重要

這條新聞值得關注，因為現有量化方法受限於整數位寬，導致部署時出現“部署缺口”，無法最優適配內存預算。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

大語言模型（LLM）的部署面臨一個根本性挑戰：現有的量化方法通常侷限於固定的整數位寬，例如2比特或3比特。這種剛性導致模型無法精確匹配特定硬件的內存預算，形成所謂的“部署缺口”。為了解決這一問題，研究者提出了LiftQuant框架，該框架通過創新的“提升-投影”機制實現了準連續的位寬控制，從而能夠根據可用內存進行帕累托最優的部署。

LiftQuant的核心思想源於一個巧妙的幾何直覺：將低維的權重向量視為從高維空間投影下來的簡單結構。具體來説，該機制首先將低維權重提升到一個更高維的“提升空間”，在這個高維空間中，權重可以用一個簡單的1比特晶格來近似；然後將這個高維晶格投影回原始低維空間。這樣，由於提升維度的靈活性，有效位寬可以連續調節——它由提升維度與原始維度的比率決定。這一比率可以是非整數的，使得位寬可以取任意值，例如2.4比特，從而精確匹配24GB GPU的內存。

該投影過程生成的結構化碼本是非均勻的，它保留了向量量化（VQ）的表達能力，但解碼過程僅涉及線性變換和1比特均勻量化器，這使得LiftQuant保持了對硬件友好的特性。相比之下，傳統的VQ方法通常需要更復雜的解碼步驟。

實驗結果表明，LiftQuant在性能上具有顯著優勢。以70B參數的LLM為例，LiftQuant將其壓縮至2.4比特後，可以完美適配24GB GPU，並且其性能大幅超過了同設備上採用最先進2比特量化方法的模型。這一突破意味着，開發者現在可以根據具體的內存預算靈活調整模型精度，而不必妥協於固定的比特數。

該論文已被ICML 2026接收為Spotlight論文，代碼和檢查點已在GitHub上開源（https://github.com/Heliulu/LiftQuant），為社區提供了進一步研究的基礎。LiftQuant的出現為高效LLM部署開闢了新的方向，有望在邊緣計算、移動設備以及資源受限的環境中發揮重要作用。