2026-06-06 02:59 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Google DeepMind釋出Gemma 4 QAT檢查點：Q4_0和新移動格式降低裝置端記憶體

Google DeepMind為Gemma 4系列釋出了量化感知訓練（QAT）檢查點，旨在支援邊緣裝置和消費級GPU的本地部署。本文基於官方資料比較了BF16、Q4_0 QAT和新型移動QAT三種格式，分析其記憶體佔用、質量保持和裝置適配性。

來源MarkTechPost作者: Asif Razzaq

Google DeepMind於近日釋出了Gemma 4系列模型的量化感知訓練（QAT）檢查點，重點針對邊緣裝置和消費級GPU的本地部署場景。此次釋出緊隨Gemma 4在四月份的初始釋出以及兩天前12B模型的推出。

QAT的核心原理是在訓練過程中模擬量化操作，使模型學會補償精度損失，從而在量化後保持更高的質量。與標準的訓練後量化（PTQ）相比，QAT能夠在相同位寬下顯著提升模型效能。Google聲稱其QAT結果在整體質量上優於標準PTQ基線，但並未公佈Gemma 4 QAT的具體基準分數。作為參考，上一代Gemma 3 QAT在llama.cpp評估中將Q4_0的困惑度下降減少了54%。

本次對比聚焦於Gemma 4的E2B和E4B模型，涵蓋三種格式：BF16（16位全精度基線）、Q4_0 QAT（4位通用本地格式）和新型移動QAT格式。記憶體資料均來自官方文件：BF16下E2B佔用9.6GB，E4B為15GB；Q4_0 QAT將兩者分別降至3.2GB和5GB，佔用與PTQ Q4_0相同，但質量更優；移動QAT格式進一步將E2B壓縮至約1GB，若去掉音訊和視覺編碼器僅保留文本，則低於1GB。

移動QAT格式專為移動硬體設計，採用四項關鍵技術：靜態啟用（訓練時預計算縮放因子，減少裝置端計算）、通道級量化（適配移動加速器架構）、針對性2位量化（僅壓縮令牌生成層，推理層保持高精度）以及嵌入和KV快取最佳化。這種設計在壓縮儲存的同時保證了核心推理能力。

在五維評估（記憶體佔用、質量保持、解碼速度、部署廣度、裝置端可訪問性）中，Q4_0 QAT和移動QAT均獲得21分（總分25分），但各自適用於不同場景：移動QAT適合手機，實現約1GB的E2B佔用；Q4_0 QAT適合筆記本和消費級GPU，是實用的預設選擇。BF16作為質量參考，總分僅為13分。

需要強調的是，所有記憶體資料均來自Google官方文件，質量評估基於Google自身宣告，尚未有獨立的Gemma 4 QAT質量基準釋出。本文未進行本地模型執行測試，開發者在實際使用前應根據自身量化和工作負載進行驗證。

目前，Gemma 4 QAT檢查點已可在Hugging Face上獲取，支援llama.cpp、Ollama、LM Studio、vLLM、MLX和LiteRT-LM等框架。這標誌著大型語言模型向裝置端部署邁出了重要一步，尤其是在移動和邊緣裝置上的可用性得到顯著提升。