Google Gemma 4 12B:架構、基準測試、訪問與開發者實操指南
2026年6月3日,Google推出Gemma 4 12B Unified,一款開源多模態模型,支援文本、影像、音訊和影片,擁有256K上下文視窗,專為筆記型電腦上的智慧體工作流和本地部署設計。本文解析其架構、特性、基準測試對比及開發者上手指南。
2026年6月3日,Google DeepMind釋出了Gemma 4 12B Unified,一款面向開發者筆記型電腦的開源多模態模型。該模型能夠統一處理文本、影像、音訊和影片,擁有256K的上下文視窗,專為智慧體工作流和本地部署最佳化。
Gemma 4 12B Unified是Gemma 4系列的中等規模模型,填補了邊緣模型(如E4B)與大型MoE模型(26B A4B)之間的空白。它採用創新的無編碼器架構,透過一個35M引數的視覺嵌入器將48×48畫素的影像塊直接投影到LLM隱藏空間,音訊則透過將16kHz音訊切片為40ms幀併線性投影實現,從而消除了傳統多模態模型中獨立編碼器的複雜性。
該模型支援文本生成、長上下文推理(最高256K tokens)、程式碼補全與糾正、函式呼叫、影片幀理解、自動語音識別及翻譯,並覆蓋35種以上語言,預訓練資料包含140多種語言。Google還特別強調了其在語音識別、說話人分離、影片理解和智慧體推理方面的能力。
與早期Gemma 4模型相比,12B版本的主要改進包括:統一的編碼器自由設計,使得音訊成為中等規模模型的原生能力;上下文視窗從128K擴充套件至256K;以及更簡單的微調流程。模型還支援多token預測(MTP)草稿器,用於推測解碼以降低延遲。
開發者可以透過Hugging Face、Kaggle、Ollama、LM Studio等多種工具獲取該模型。使用Ollama時,只需執行“ollama run gemma4:12b”即可下載並互動。對於影像理解,Google建議在提示中將影像內容置於文本之前,使用Python SDK即可輕鬆實現。
官方基準測試顯示,Gemma 4 12B Unified在MMLU Pro(77.2%)、AIME 2026(77.5%)、LiveCodeBench v6(72.0%)等指標上均介於E4B和26B A4B之間,在GPQA Diamond(78.8%)和MMMU Pro(69.1%)上也表現出色。它在FLEURS語音識別任務中達到0.069的低詞錯誤率,進一步證明了多模態能力。
總的來說,Gemma 4 12B Unified不僅是技術上的增量更新,更是Google將強大多模態AI帶入開發者本地機器的藍圖。它透過單一解碼器處理文本、影像和音訊,為本地語音、編碼和文件工作流消除了管道複雜性。技術領導者可將其部署為強大的本地開源模型,同時根據延遲、安全和合規要求進行擴充套件。