Gemma 4 QATモデル:モバイルおよびノートパソコン向け圧縮最適化
Googleは、量子化認識トレーニング(QAT)で最適化されたGemma 4の新しいチェックポイントをリリースし、メモリ使用量を削減してエッジデバイスやコンシューマーGPUでのローカル実行を可能にします。カスタムモバイル量子化フォーマットにより、E2Bモデルのメモリフットプリントを1GB未満に削減しました。
Googleは本日、Gemma 4の量子化認識トレーニング(QAT)最適化チェックポイントを発表しました。これは、2カ月前のGemma 4リリースに続く重要なアップデートです。これまでに、マルチトークン予測(MTP)による推論高速化や、E4Bと26B MOEモデルの間を埋める12Bモデルのリリースが行われてきました。今回の新チェックポイントは、QAT技術によりメモリ要件を大幅に削減し、日常的なエッジデバイスやコンシューマーGPUでのローカル実行を可能にします。
QATは、トレーニング中に量子化をシミュレートすることで、モデル圧縮後の品質低下を最小限に抑えます。従来の後トレーニング量子化(PTQ)と比較して、QATはより高い品質を維持できます。今回のリリースには、人気のQ4_0フォーマットに加え、モバイルユースケースに特化した新しい量子化フォーマットが含まれています。モバイルフォーマットを使用すると、Gemma 4 E2Bモデルのメモリフットプリントは1GBに削減され、テキスト専用バージョン(レイヤー埋め込みなし)は1GB未満で動作します。
モバイルデバイスでのパフォーマンスを最大化するために、Googleはカスタムのモバイル量子化スキーマを設計しました。主な特徴は以下の通りです。静的アクティベーション:トレーニング中にスケーリング設定を事前計算し、モバイルチップの負荷を軽減。チャネル単位量子化:圧縮データをモバイルアクセラレータの設計に適合させ、ネイティブ計算を可能に。ターゲット2ビット量子化:トークン生成部分のみを2ビットに圧縮し、推論層の高精度を維持。埋め込みとKVキャッシュの最適化:語彙リストと短期記憶を圧縮し、アクティブメモリを削減して長い会話を可能にします。また、音声やビジョンエンコーダが不要な場合は、必要なモダリティのみをデプロイすることでメモリをさらに最適化できます。
新しいチェックポイントは、主要な開発者ツールと統合されています。Hugging FaceでQ4_0およびモバイルモデルの重みをダウンロード可能で、GGUF形式(llama.cpp向け)や圧縮テンソル(vLLM向け)が用意されています。デスクトップでは、llama.cpp、Ollama、LM Studioなどのインターフェースを通じて簡単に実行できます。エッジデプロイにはGoogleの軽量LiteRT-LMランタイム、ウェブ上ではTransformers.jsが利用可能です。Apple Silicon向けにはMLXが最適化を提供し、MTP QATチェックポイントはMTPの高速化を維持します。さらに、Hugging Face TransformersやUnslothを使用したファインチューニングもサポートされています。Googleは、開発者が今すぐ重みをダウンロードしてGemma 4をローカルで実行することを歓迎しています。