LiftQuant:透過維度提升與投影實現連續位寬的大語言模型
本文介紹LiftQuant,一種透過“提升-投影”機制實現連續位寬控制的新框架。該方法將低維權重向量近似為高維1位元晶格的投影,實現位寬準連續調節。實驗表明,LiftQuant可將70B模型壓縮至2.4位元,精確適配24GB GPU,效能超越現有2位元模型。該論文已被ICML 2026接收為Spotlight。
大語言模型(LLM)的部署面臨一個根本性挑戰:現有的量化方法通常侷限於固定的整數位寬,例如2位元或3位元。這種剛性導致模型無法精確匹配特定硬體的記憶體預算,形成所謂的“部署缺口”。為了解決這一問題,研究者提出了LiftQuant框架,該框架透過創新的“提升-投影”機制實現了準連續的位寬控制,從而能夠根據可用記憶體進行帕累托最優的部署。
LiftQuant的核心思想源於一個巧妙的幾何直覺:將低維的權重向量視為從高維空間投影下來的簡單結構。具體來說,該機制首先將低維權重提升到一個更高維的“提升空間”,在這個高維空間中,權重可以用一個簡單的1位元晶格來近似;然後將這個高維晶格投影回原始低維空間。這樣,由於提升維度的靈活性,有效位寬可以連續調節——它由提升維度與原始維度的比率決定。這一比率可以是非整數的,使得位寬可以取任意值,例如2.4位元,從而精確匹配24GB GPU的記憶體。
該投影過程生成的結構化碼本是非均勻的,它保留了向量量化(VQ)的表達能力,但解碼過程僅涉及線性變換和1位元均勻量化器,這使得LiftQuant保持了對硬體友好的特性。相比之下,傳統的VQ方法通常需要更復雜的解碼步驟。
實驗結果表明,LiftQuant在效能上具有顯著優勢。以70B引數的LLM為例,LiftQuant將其壓縮至2.4位元後,可以完美適配24GB GPU,並且其效能大幅超過了同裝置上採用最先進2位元量化方法的模型。這一突破意味著,開發者現在可以根據具體的記憶體預算靈活調整模型精度,而不必妥協於固定的位元數。
該論文已被ICML 2026接收為Spotlight論文,程式碼和檢查點已在GitHub上開源(https://github.com/Heliulu/LiftQuant),為社群提供了進一步研究的基礎。LiftQuant的出現為高效LLM部署開闢了新的方向,有望在邊緣計算、移動裝置以及資源受限的環境中發揮重要作用。