2026-06-06 02:59 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Google DeepMind發佈Gemma 4 QAT檢查點：Q4_0和新移動格式降低設備端內存

Google DeepMind為Gemma 4系列發佈了量化感知訓練（QAT）檢查點，旨在支持邊緣設備和消費級GPU的本地部署。本文基於官方數據比較了BF16、Q4_0 QAT和新型移動QAT三種格式，分析其內存佔用、質量保持和設備適配性。

來源MarkTechPost作者: Asif Razzaq

Google DeepMind於近日發佈了Gemma 4系列模型的量化感知訓練（QAT）檢查點，重點針對邊緣設備和消費級GPU的本地部署場景。此次發佈緊隨Gemma 4在四月份的初始發佈以及兩天前12B模型的推出。

QAT的核心原理是在訓練過程中模擬量化操作，使模型學會補償精度損失，從而在量化後保持更高的質量。與標準的訓練後量化（PTQ）相比，QAT能夠在相同位寬下顯著提升模型性能。Google聲稱其QAT結果在整體質量上優於標準PTQ基線，但並未公佈Gemma 4 QAT的具體基準分數。作為參考，上一代Gemma 3 QAT在llama.cpp評估中將Q4_0的困惑度下降減少了54%。

本次對比聚焦於Gemma 4的E2B和E4B模型，涵蓋三種格式：BF16（16位全精度基線）、Q4_0 QAT（4位通用本地格式）和新型移動QAT格式。內存數據均來自官方文檔：BF16下E2B佔用9.6GB，E4B為15GB；Q4_0 QAT將兩者分別降至3.2GB和5GB，佔用與PTQ Q4_0相同，但質量更優；移動QAT格式進一步將E2B壓縮至約1GB，若去掉音頻和視覺編碼器僅保留文本，則低於1GB。

移動QAT格式專為移動硬件設計，採用四項關鍵技術：靜態激活（訓練時預計算縮放因子，減少設備端計算）、通道級量化（適配移動加速器架構）、針對性2位量化（僅壓縮令牌生成層，推理層保持高精度）以及嵌入和KV緩存優化。這種設計在壓縮存儲的同時保證了核心推理能力。

在五維評估（內存佔用、質量保持、解碼速度、部署廣度、設備端可訪問性）中，Q4_0 QAT和移動QAT均獲得21分（總分25分），但各自適用於不同場景：移動QAT適合手機，實現約1GB的E2B佔用；Q4_0 QAT適合筆記本和消費級GPU，是實用的默認選擇。BF16作為質量參考，總分僅為13分。

需要強調的是，所有內存數據均來自Google官方文檔，質量評估基於Google自身聲明，尚未有獨立的Gemma 4 QAT質量基準發佈。本文未進行本地模型運行測試，開發者在實際使用前應根據自身量化和工作負載進行驗證。

目前，Gemma 4 QAT檢查點已可在Hugging Face上獲取，支持llama.cpp、Ollama、LM Studio、vLLM、MLX和LiteRT-LM等框架。這標誌着大型語言模型向設備端部署邁出了重要一步，尤其是在移動和邊緣設備上的可用性得到顯著提升。