2026-06-04 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

LiftQuant：透過維度提升與投影實現連續位寬的大語言模型

本文介紹LiftQuant，一種透過“提升-投影”機制實現連續位寬控制的新框架。該方法將低維權重向量近似為高維1位元晶格的投影，實現位寬準連續調節。實驗表明，LiftQuant可將70B模型壓縮至2.4位元，精確適配24GB GPU，效能超越現有2位元模型。該論文已被ICML 2026接收為Spotlight。

來源arXiv Machine Learning作者: Liulu He, XuanAng Liu, Juntao Liu, Taolue Feng, Ting Lu, Chunsheng Gan, Zhiyv Peng, Yuan Du, Huanrui Yang, Yijiang Liu, Li Du

文章情報

工程師進階

要點

現有量化方法受限於整數位寬，導致部署時出現“部署缺口”，無法最優適配記憶體預算。
LiftQuant的核心創新是“提升-投影”機制：從高維提升空間投影1位元晶格，透過調整提升維度與原始維度的比率實現連續位寬。
該方法生成結構化非均勻碼本，兼具向量量化的表達能力和硬體友好的線性變換與1位元均勻量化器。
在24GB GPU上，LiftQuant將70B模型壓縮至2.4位元，效能顯著優於同裝置上最先進的2位元模型。

為什麼重要

這條新聞值得關注，因為現有量化方法受限於整數位寬，導致部署時出現“部署缺口”，無法最優適配記憶體預算。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

大語言模型（LLM）的部署面臨一個根本性挑戰：現有的量化方法通常侷限於固定的整數位寬，例如2位元或3位元。這種剛性導致模型無法精確匹配特定硬體的記憶體預算，形成所謂的“部署缺口”。為了解決這一問題，研究者提出了LiftQuant框架，該框架透過創新的“提升-投影”機制實現了準連續的位寬控制，從而能夠根據可用記憶體進行帕累托最優的部署。

LiftQuant的核心思想源於一個巧妙的幾何直覺：將低維的權重向量視為從高維空間投影下來的簡單結構。具體來說，該機制首先將低維權重提升到一個更高維的“提升空間”，在這個高維空間中，權重可以用一個簡單的1位元晶格來近似；然後將這個高維晶格投影回原始低維空間。這樣，由於提升維度的靈活性，有效位寬可以連續調節——它由提升維度與原始維度的比率決定。這一比率可以是非整數的，使得位寬可以取任意值，例如2.4位元，從而精確匹配24GB GPU的記憶體。

該投影過程生成的結構化碼本是非均勻的，它保留了向量量化（VQ）的表達能力，但解碼過程僅涉及線性變換和1位元均勻量化器，這使得LiftQuant保持了對硬體友好的特性。相比之下，傳統的VQ方法通常需要更復雜的解碼步驟。

實驗結果表明，LiftQuant在效能上具有顯著優勢。以70B引數的LLM為例，LiftQuant將其壓縮至2.4位元後，可以完美適配24GB GPU，並且其效能大幅超過了同裝置上採用最先進2位元量化方法的模型。這一突破意味著，開發者現在可以根據具體的記憶體預算靈活調整模型精度，而不必妥協於固定的位元數。

該論文已被ICML 2026接收為Spotlight論文，程式碼和檢查點已在GitHub上開源（https://github.com/Heliulu/LiftQuant），為社群提供了進一步研究的基礎。LiftQuant的出現為高效LLM部署開闢了新的方向，有望在邊緣計算、移動裝置以及資源受限的環境中發揮重要作用。