AI News HubLIVE
站内改写2 分で読了

Google DeepMind、Gemma 4 QATチェックポイントをリリース:Q4_0と新しいモバイル形式でオンデバイスメモリを削減

Google DeepMindは、エッジデバイスとコンシューマーGPUでのローカル実行を目的として、Gemma 4ファミリー向けの量子化認識トレーニング(QAT)チェックポイントをリリースしました。本記事では、公式データに基づきBF16、Q4_0 QAT、および新しいモバイルQAT形式のメモリ使用量、品質保持、デバイス適合性を比較します。

ソースMarkTechPost著者: Asif Razzaq

Google DeepMindは、Gemma 4シリーズの量子化認識トレーニング(QAT)チェックポイントをリリースしました。これは、エッジデバイスやコンシューマーGPUでのローカル展開を目的としており、4月のGemma 4リリースと2日前の12Bモデルに続くものです。

QATは、トレーニング中に量子化をシミュレートすることで、モデルが精度低下を補償する方法を学習する手法です。標準的な学習後量子化(PTQ)と比較して、同じビット幅でも高い品質を維持できます。GoogleはQAT結果が標準PTQベースラインよりも全体的に高品質であると主張していますが、Gemma 4 QATの具体的なベンチマークスコアは公開していません。参考として、前世代のGemma 3 QATでは、llama.cpp評価でQ4_0のパープレキシティ低下を54%削減したとされています。

本比較では、Gemma 4のE2BおよびE4Bモデルを対象に、BF16(16ビット全精度ベースライン)、Q4_0 QAT(4ビット汎用ローカル形式)、および新しいモバイルQAT形式の3つの形式を評価しました。メモリデータはすべて公式文書からの引用です:BF16ではE2Bが9.6GB、E4Bが15GB;Q4_0 QATではそれぞれ3.2GBと5GBに削減(サイズはPTQ Q4_0と同じですが品質は向上);モバイルQAT形式ではE2Bが約1GB、さらにオーディオとビジョンエンコーダを削除したテキスト専用モデルでは1GB未満になります。

モバイルQAT形式は、モバイルハードウェア向けに設計されており、4つの技術を採用しています:静的活性化(トレーニング中にスケーリング係数を事前計算し、デバイス上の計算を削減)、チャネル単位量子化(モバイルアクセラレータの設計に適合)、対象2ビット量子化(トークン生成層のみを圧縮し、推論層は高精度を維持)、および埋め込みとKVキャッシュの最適化。これにより、コア能力を保護しながらストレージを削減します。

5次元評価(メモリ使用量、品質保持、デコード速度、展開の広さ、デバイス上でのアクセシビリティ)において、Q4_0 QATとモバイルQATはともに21点(25点満点)を獲得しましたが、それぞれ異なるハードウェアに適しています。モバイルQATはスマートフォン向けで、E2B約1GBを実現;Q4_0 QATはノートPCやコンシューマーGPU向けの実用的なデフォルトです。BF16は品質の基準ですが、ローカル展開の選択肢としては13点と低くなっています。

注意すべき点として、メモリ数値はGoogleの公式文書に基づき、品質評価はGoogleの主張に依存しています。Gemma 4 QATの独立した品質スコアはリリース時点では公開されていません。本比較ではモデルをローカルで実行しておらず、開発者は実際の量子化とワークロードに基づいてテストする必要があります。

現在、Gemma 4 QATチェックポイントはHugging Faceで入手可能であり、llama.cpp、Ollama、LM Studio、vLLM、MLX、LiteRT-LMなどのフレームワークをサポートしています。これは、大規模言語モデルのデバイス上展開、特にモバイルおよびエッジデバイスでの可用性向上に向けた重要な一歩です。