AI News HubLIVE
站内改写1 分で読了

LiftQuant:次元リフティングと投影による連続ビット幅LLM

本論文では、LiftQuantと呼ばれる新しいフレームワークを提案する。これは「リフト・アンド・プロジェクト」機構により連続的なビット幅制御を可能にし、70BパラメータのLLMを2.4ビットに圧縮して24GB GPUに正確に適合させる。ICML 2026 Spotlight採択。

ソースarXiv Machine Learning著者: Liulu He, XuanAng Liu, Juntao Liu, Taolue Feng, Ting Lu, Chunsheng Gan, Zhiyv Peng, Yuan Du, Huanrui Yang, Yijiang Liu, Li Du

大規模言語モデル(LLM)の展開において、既存の量子化手法は2ビットや3ビットといった整数値のビット幅に制約されており、メモリ予算に最適に適合させることができない「展開ギャップ」が長年の課題でした。このギャップを埋めるため、LiftQuantという新しいフレームワークが提案されました。本論文はICML 2026でSpotlight論文として採択されています。

LiftQuantの核心は「リフト・アンド・プロジェクト」機構です。この機構では、低次元の重みベクトルを、高次元の「リフティング」空間から投影された単純な1ビット格子として近似します。実効ビット幅はリフト次元と元の次元の比率で決まるため、次元を柔軟な構造パラメータとして調整することで、ビット幅を2.4ビットなどの任意の値に準連続的に設定できます。

この投影により、構造化された非一様なコードブックが生成されます。このコードブックはベクトル量子化(VQ)の表現力を備えていますが、LiftQuantの復号パスは線形変換と1ビット一様量子化器のみに依存するため、ハードウェア実装に非常に適しています。

実験結果は、LiftQuantの実用性を強く示しています。70BパラメータのLLMを2.4ビットに圧縮し、24GBのGPUメモリに正確に収めたところ、同一デバイス上で最先端の2ビット量子化モデルを大幅に上回る性能を達成しました。これにより、開発者はメモリ制約に応じてモデルの精度とサイズを柔軟に調整できるようになります。

LiftQuantのコードとチェックポイントはGitHub(https://github.com/Heliulu/LiftQuant)で公開されており、再現性とさらなる研究の発展を可能にしています。この研究は、LLMの効率的な展開、特にエッジデバイスやリソース制約のある環境での応用に新たな可能性を開くものです。