AI News HubLIVE
站内改写2 分鐘閱讀

Google DeepMind發佈Gemma 4 QAT檢查點:Q4_0和新移動格式降低設備端內存

Google DeepMind為Gemma 4系列發佈了量化感知訓練(QAT)檢查點,旨在支持邊緣設備和消費級GPU的本地部署。本文基於官方數據比較了BF16、Q4_0 QAT和新型移動QAT三種格式,分析其內存佔用、質量保持和設備適配性。

來源MarkTechPost作者: Asif Razzaq

Google DeepMind於近日發佈了Gemma 4系列模型的量化感知訓練(QAT)檢查點,重點針對邊緣設備和消費級GPU的本地部署場景。此次發佈緊隨Gemma 4在四月份的初始發佈以及兩天前12B模型的推出。

QAT的核心原理是在訓練過程中模擬量化操作,使模型學會補償精度損失,從而在量化後保持更高的質量。與標準的訓練後量化(PTQ)相比,QAT能夠在相同位寬下顯著提升模型性能。Google聲稱其QAT結果在整體質量上優於標準PTQ基線,但並未公佈Gemma 4 QAT的具體基準分數。作為參考,上一代Gemma 3 QAT在llama.cpp評估中將Q4_0的困惑度下降減少了54%。

本次對比聚焦於Gemma 4的E2B和E4B模型,涵蓋三種格式:BF16(16位全精度基線)、Q4_0 QAT(4位通用本地格式)和新型移動QAT格式。內存數據均來自官方文檔:BF16下E2B佔用9.6GB,E4B為15GB;Q4_0 QAT將兩者分別降至3.2GB和5GB,佔用與PTQ Q4_0相同,但質量更優;移動QAT格式進一步將E2B壓縮至約1GB,若去掉音頻和視覺編碼器僅保留文本,則低於1GB。

移動QAT格式專為移動硬件設計,採用四項關鍵技術:靜態激活(訓練時預計算縮放因子,減少設備端計算)、通道級量化(適配移動加速器架構)、針對性2位量化(僅壓縮令牌生成層,推理層保持高精度)以及嵌入和KV緩存優化。這種設計在壓縮存儲的同時保證了核心推理能力。

在五維評估(內存佔用、質量保持、解碼速度、部署廣度、設備端可訪問性)中,Q4_0 QAT和移動QAT均獲得21分(總分25分),但各自適用於不同場景:移動QAT適合手機,實現約1GB的E2B佔用;Q4_0 QAT適合筆記本和消費級GPU,是實用的默認選擇。BF16作為質量參考,總分僅為13分。

需要強調的是,所有內存數據均來自Google官方文檔,質量評估基於Google自身聲明,尚未有獨立的Gemma 4 QAT質量基準發佈。本文未進行本地模型運行測試,開發者在實際使用前應根據自身量化和工作負載進行驗證。

目前,Gemma 4 QAT檢查點已可在Hugging Face上獲取,支持llama.cpp、Ollama、LM Studio、vLLM、MLX和LiteRT-LM等框架。這標誌着大型語言模型向設備端部署邁出了重要一步,尤其是在移動和邊緣設備上的可用性得到顯著提升。