Google DeepMind釋出Gemma 4 QAT檢查點:Q4_0和新移動格式降低裝置端記憶體
Google DeepMind為Gemma 4系列釋出了量化感知訓練(QAT)檢查點,旨在支援邊緣裝置和消費級GPU的本地部署。本文基於官方資料比較了BF16、Q4_0 QAT和新型移動QAT三種格式,分析其記憶體佔用、質量保持和裝置適配性。
Google DeepMind於近日釋出了Gemma 4系列模型的量化感知訓練(QAT)檢查點,重點針對邊緣裝置和消費級GPU的本地部署場景。此次釋出緊隨Gemma 4在四月份的初始釋出以及兩天前12B模型的推出。
QAT的核心原理是在訓練過程中模擬量化操作,使模型學會補償精度損失,從而在量化後保持更高的質量。與標準的訓練後量化(PTQ)相比,QAT能夠在相同位寬下顯著提升模型效能。Google聲稱其QAT結果在整體質量上優於標準PTQ基線,但並未公佈Gemma 4 QAT的具體基準分數。作為參考,上一代Gemma 3 QAT在llama.cpp評估中將Q4_0的困惑度下降減少了54%。
本次對比聚焦於Gemma 4的E2B和E4B模型,涵蓋三種格式:BF16(16位全精度基線)、Q4_0 QAT(4位通用本地格式)和新型移動QAT格式。記憶體資料均來自官方文件:BF16下E2B佔用9.6GB,E4B為15GB;Q4_0 QAT將兩者分別降至3.2GB和5GB,佔用與PTQ Q4_0相同,但質量更優;移動QAT格式進一步將E2B壓縮至約1GB,若去掉音訊和視覺編碼器僅保留文本,則低於1GB。
移動QAT格式專為移動硬體設計,採用四項關鍵技術:靜態啟用(訓練時預計算縮放因子,減少裝置端計算)、通道級量化(適配移動加速器架構)、針對性2位量化(僅壓縮令牌生成層,推理層保持高精度)以及嵌入和KV快取最佳化。這種設計在壓縮儲存的同時保證了核心推理能力。
在五維評估(記憶體佔用、質量保持、解碼速度、部署廣度、裝置端可訪問性)中,Q4_0 QAT和移動QAT均獲得21分(總分25分),但各自適用於不同場景:移動QAT適合手機,實現約1GB的E2B佔用;Q4_0 QAT適合筆記本和消費級GPU,是實用的預設選擇。BF16作為質量參考,總分僅為13分。
需要強調的是,所有記憶體資料均來自Google官方文件,質量評估基於Google自身宣告,尚未有獨立的Gemma 4 QAT質量基準釋出。本文未進行本地模型執行測試,開發者在實際使用前應根據自身量化和工作負載進行驗證。
目前,Gemma 4 QAT檢查點已可在Hugging Face上獲取,支援llama.cpp、Ollama、LM Studio、vLLM、MLX和LiteRT-LM等框架。這標誌著大型語言模型向裝置端部署邁出了重要一步,尤其是在移動和邊緣裝置上的可用性得到顯著提升。