2026-06-06 00:18 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Gemma 4 QAT模型：為移動設備和筆記本電腦優化壓縮效率

谷歌發佈採用量化感知訓練（QAT）的Gemma 4新檢查點，顯著降低內存需求，支持在邊緣設備和消費級GPU上本地運行。自定義移動量化格式將E2B模型內存佔用降至1GB以下，同時保持模型質量。

來源Hacker News AI作者: theanonymousone

谷歌今日宣佈推出Gemma 4 QAT（量化感知訓練）優化檢查點，這是自兩個月前發佈Gemma 4以來的又一次重要更新。此前，谷歌已引入多令牌預測（MTP）以加速推理，併發布了12B模型以填補E4B和26B MOE模型之間的空白。現在，新檢查點通過QAT技術進一步降低內存需求，使開發者能夠在日常邊緣設備和消費級GPU上高效運行Gemma 4模型。

QAT通過在訓練過程中模擬量化操作，最大限度地減少模型壓縮後的質量損失。與傳統的後訓練量化（PTQ）相比，QAT在保持模型質量方面表現更優。本次發佈的檢查點包括流行的Q4_0格式以及專為移動設備設計的新型量化格式。採用移動格式後，Gemma 4 E2B模型的內存佔用降至1GB，而純文本版本（不含逐層嵌入）甚至低於1GB。

為了在移動設備上實現最佳性能，谷歌設計了一套自定義的移動量化方案。該方案包含多項創新：靜態激活預計算，減少移動芯片的計算負載；通道級量化，使壓縮數據更適配移動加速器的設計；針對生成令牌部分的2位量化，在保持推理層高精度的同時節省存儲；以及嵌入和KV緩存優化，顯著降低活躍內存佔用，使得長時間對話也不會耗盡空間。此外，由於許多場景不需要音頻和視覺編碼器，開發者可以僅部署所需模態，進一步優化內存。

新檢查點已與主流開發者工具實現集成。開發者可以在Hugging Face上下載Q4_0和移動模型權重，格式包括GGUF（適用於llama.cpp）和壓縮張量（適用於vLLM）。桌面用户可通過llama.cpp、Ollama和LM Studio等界面輕鬆運行模型。邊緣部署可使用谷歌的輕量級LiteRT-LM運行時，或通過Transformers.js在網頁中運行。對於Apple Silicon，MLX提供了優化支持。此外，MTP QAT檢查點保留了MTP的速度優勢，開發者還可以使用Hugging Face Transformers和Unsloth進行微調。谷歌鼓勵開發者立即下載權重，嘗試本地運行Gemma 4。