Google Gemma 4 12B:架構、基準測試、訪問與開發者實操指南
2026年6月3日,Google推出Gemma 4 12B Unified,一款開源多模態模型,支持文本、圖像、音頻和視頻,擁有256K上下文窗口,專為筆記本電腦上的智能體工作流和本地部署設計。本文解析其架構、特性、基準測試對比及開發者上手指南。
2026年6月3日,Google DeepMind發佈了Gemma 4 12B Unified,一款面向開發者筆記本電腦的開源多模態模型。該模型能夠統一處理文本、圖像、音頻和視頻,擁有256K的上下文窗口,專為智能體工作流和本地部署優化。
Gemma 4 12B Unified是Gemma 4系列的中等規模模型,填補了邊緣模型(如E4B)與大型MoE模型(26B A4B)之間的空白。它採用創新的無編碼器架構,通過一個35M參數的視覺嵌入器將48×48像素的圖像塊直接投影到LLM隱藏空間,音頻則通過將16kHz音頻切片為40ms幀併線性投影實現,從而消除了傳統多模態模型中獨立編碼器的複雜性。
該模型支持文本生成、長上下文推理(最高256K tokens)、代碼補全與糾正、函數調用、視頻幀理解、自動語音識別及翻譯,並覆蓋35種以上語言,預訓練數據包含140多種語言。Google還特別強調了其在語音識別、説話人分離、視頻理解和智能體推理方面的能力。
與早期Gemma 4模型相比,12B版本的主要改進包括:統一的編碼器自由設計,使得音頻成為中等規模模型的原生能力;上下文窗口從128K擴展至256K;以及更簡單的微調流程。模型還支持多token預測(MTP)草稿器,用於推測解碼以降低延遲。
開發者可以通過Hugging Face、Kaggle、Ollama、LM Studio等多種工具獲取該模型。使用Ollama時,只需運行“ollama run gemma4:12b”即可下載並交互。對於圖像理解,Google建議在提示中將圖像內容置於文本之前,使用Python SDK即可輕鬆實現。
官方基準測試顯示,Gemma 4 12B Unified在MMLU Pro(77.2%)、AIME 2026(77.5%)、LiveCodeBench v6(72.0%)等指標上均介於E4B和26B A4B之間,在GPQA Diamond(78.8%)和MMMU Pro(69.1%)上也表現出色。它在FLEURS語音識別任務中達到0.069的低詞錯誤率,進一步證明了多模態能力。
總的來説,Gemma 4 12B Unified不僅是技術上的增量更新,更是Google將強大多模態AI帶入開發者本地機器的藍圖。它通過單一解碼器處理文本、圖像和音頻,為本地語音、編碼和文檔工作流消除了管道複雜性。技術領導者可將其部署為強大的本地開源模型,同時根據延遲、安全和合規要求進行擴展。