2026-06-05 18:55 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Google Gemma 4 12B：架構、基準測試、訪問與開發者實操指南

2026年6月3日，Google推出Gemma 4 12B Unified，一款開源多模態模型，支持文本、圖像、音頻和視頻，擁有256K上下文窗口，專為筆記本電腦上的智能體工作流和本地部署設計。本文解析其架構、特性、基準測試對比及開發者上手指南。

來源Analytics Vidhya作者: Harsh Mishra

文章情報

工程師進階

要點

Gemma 4 12B Unified採用無編碼器架構，直接投影圖像和音頻到LLM嵌入空間，簡化多模態處理。
支持256K上下文、函數調用、35種以上語言、語音識別和視頻理解，可在Ollama等本地工具運行。
基準測試顯示其性能介於4B邊緣模型和26B MoE模型之間，為本地推理和編碼提供實用中間選擇。
該模型填補了邊緣設備與高端工作站之間的部署空白，是Google推動本地AI的關鍵一步。

為甚麼重要

這條新聞值得關注，因為Gemma 4 12B Unified採用無編碼器架構，直接投影圖像和音頻到LLM嵌入空間，簡化多模態處理。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

2026年6月3日，Google DeepMind發佈了Gemma 4 12B Unified，一款面向開發者筆記本電腦的開源多模態模型。該模型能夠統一處理文本、圖像、音頻和視頻，擁有256K的上下文窗口，專為智能體工作流和本地部署優化。

Gemma 4 12B Unified是Gemma 4系列的中等規模模型，填補了邊緣模型（如E4B）與大型MoE模型（26B A4B）之間的空白。它採用創新的無編碼器架構，通過一個35M參數的視覺嵌入器將48×48像素的圖像塊直接投影到LLM隱藏空間，音頻則通過將16kHz音頻切片為40ms幀併線性投影實現，從而消除了傳統多模態模型中獨立編碼器的複雜性。

該模型支持文本生成、長上下文推理（最高256K tokens）、代碼補全與糾正、函數調用、視頻幀理解、自動語音識別及翻譯，並覆蓋35種以上語言，預訓練數據包含140多種語言。Google還特別強調了其在語音識別、説話人分離、視頻理解和智能體推理方面的能力。

與早期Gemma 4模型相比，12B版本的主要改進包括：統一的編碼器自由設計，使得音頻成為中等規模模型的原生能力；上下文窗口從128K擴展至256K；以及更簡單的微調流程。模型還支持多token預測（MTP）草稿器，用於推測解碼以降低延遲。

開發者可以通過Hugging Face、Kaggle、Ollama、LM Studio等多種工具獲取該模型。使用Ollama時，只需運行“ollama run gemma4:12b”即可下載並交互。對於圖像理解，Google建議在提示中將圖像內容置於文本之前，使用Python SDK即可輕鬆實現。

官方基準測試顯示，Gemma 4 12B Unified在MMLU Pro（77.2%）、AIME 2026（77.5%）、LiveCodeBench v6（72.0%）等指標上均介於E4B和26B A4B之間，在GPQA Diamond（78.8%）和MMMU Pro（69.1%）上也表現出色。它在FLEURS語音識別任務中達到0.069的低詞錯誤率，進一步證明了多模態能力。

總的來説，Gemma 4 12B Unified不僅是技術上的增量更新，更是Google將強大多模態AI帶入開發者本地機器的藍圖。它通過單一解碼器處理文本、圖像和音頻，為本地語音、編碼和文檔工作流消除了管道複雜性。技術領導者可將其部署為強大的本地開源模型，同時根據延遲、安全和合規要求進行擴展。