2026-06-02 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

BitsMoE：基於譜能量引導的混合專家大模型量化比特分配方法

BitsMoE是一種針對混合專家（MoE）大語言模型的高效量化框架，通過奇異值分解（SVD）將每一層分解為共享基和專家特有譜因子，保留共享基不量化以保持跨專家共同結構，並對專家特有因子進行細粒度比特分配。該方法將激活感知的混合精度量化建模為整數線性規劃問題，在固定比特預算下最小化估計重構損失。實驗表明，在2比特量化下，BitsMoE相比GPTQ將量化速度提升12.3倍，平均準確率提高27.83個百分點，解碼速度提升1.76倍。

來源arXiv Machine Learning作者: Jiayu Zhao, Zihan Teng, Minhao Fan, Tianrui Ma, Wentao Ren, Song Chen, Weichen Liu

混合專家（Mixture-of-Experts, MoE）大語言模型通過稀疏激活專家來降低每個token的計算量，但由於所有專家權重必須常駐內存，部署時的內存壓力依然很大。現有的MoE壓縮方法在超低位寬量化場景下表現不佳：剪枝會不可逆地移除模型容量，而粗粒度量化無法根據專家和權重方向的重要性分配比特。針對這一挑戰，來自學術界的研究團隊提出了BitsMoE——一種基於譜能量引導的比特分配框架，專門用於MoE大語言模型的量化。

BitsMoE的核心創新在於利用奇異值分解（SVD）將每個MoE層分解為一個共享基和多個專家特有的譜因子。共享基保留不量化，以保持跨專家的共同結構；專家特有的譜因子則作為細粒度的量化單元。為了確定每個單元的比特寬度，BitsMoE將頻譜級別的混合精度量化形式化為一個激活感知的重建替代問題，並通過求解整數線性規劃（ILP），在固定比特預算下最小化估計的重建損失。這種方法使得比特分配能夠根據每個譜因子的實際重要性進行優化，而不是採用統一的量化策略。

實驗在多個MoE大模型上展開，包括Qwen3-30B-A3B-Base等，結果顯示BitsMoE在極端低位寬量化場景下大幅降低了下游任務的精度損失。以Qwen3-30B-A3B-Base模型為例，在2比特量化條件下，BitsMoE相比GPTQ方法實現了12.3倍的量化加速，平均準確率提升27.83個百分點，解碼速度提升1.76倍。此外，BitsMoE的量化過程本身也更快，因為SVD分解和ILP求解可以高效完成。研究團隊已公開代碼和模型，相關論文發表於arXiv，包含29頁正文、6張圖和9張表格，代碼可在GitHub上獲取。

BitsMoE的提出為MoE大模型的部署提供了一種有效的壓縮方案，尤其適用於內存受限的設備。通過保留共享基的完整精度，模型能夠在保持跨專家結構的同時，大幅減少存儲需求。未來，該框架有望進一步擴展到其他類型的稀疏模型中，例如混合注意力模型等。這項研究對於推動大語言模型在邊緣設備上的應用具有重要意義。