LiftQuant:通過維度提升與投影實現連續位寬的大語言模型
本文介紹LiftQuant,一種通過“提升-投影”機制實現連續位寬控制的新框架。該方法將低維權重向量近似為高維1比特晶格的投影,實現位寬準連續調節。實驗表明,LiftQuant可將70B模型壓縮至2.4比特,精確適配24GB GPU,性能超越現有2比特模型。該論文已被ICML 2026接收為Spotlight。
大語言模型(LLM)的部署面臨一個根本性挑戰:現有的量化方法通常侷限於固定的整數位寬,例如2比特或3比特。這種剛性導致模型無法精確匹配特定硬件的內存預算,形成所謂的“部署缺口”。為了解決這一問題,研究者提出了LiftQuant框架,該框架通過創新的“提升-投影”機制實現了準連續的位寬控制,從而能夠根據可用內存進行帕累托最優的部署。
LiftQuant的核心思想源於一個巧妙的幾何直覺:將低維的權重向量視為從高維空間投影下來的簡單結構。具體來説,該機制首先將低維權重提升到一個更高維的“提升空間”,在這個高維空間中,權重可以用一個簡單的1比特晶格來近似;然後將這個高維晶格投影回原始低維空間。這樣,由於提升維度的靈活性,有效位寬可以連續調節——它由提升維度與原始維度的比率決定。這一比率可以是非整數的,使得位寬可以取任意值,例如2.4比特,從而精確匹配24GB GPU的內存。
該投影過程生成的結構化碼本是非均勻的,它保留了向量量化(VQ)的表達能力,但解碼過程僅涉及線性變換和1比特均勻量化器,這使得LiftQuant保持了對硬件友好的特性。相比之下,傳統的VQ方法通常需要更復雜的解碼步驟。
實驗結果表明,LiftQuant在性能上具有顯著優勢。以70B參數的LLM為例,LiftQuant將其壓縮至2.4比特後,可以完美適配24GB GPU,並且其性能大幅超過了同設備上採用最先進2比特量化方法的模型。這一突破意味着,開發者現在可以根據具體的內存預算靈活調整模型精度,而不必妥協於固定的比特數。
該論文已被ICML 2026接收為Spotlight論文,代碼和檢查點已在GitHub上開源(https://github.com/Heliulu/LiftQuant),為社區提供了進一步研究的基礎。LiftQuant的出現為高效LLM部署開闢了新的方向,有望在邊緣計算、移動設備以及資源受限的環境中發揮重要作用。