2026-06-05 18:55 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Google Gemma 4 12B：架構、基準測試、訪問與開發者實操指南

2026年6月3日，Google推出Gemma 4 12B Unified，一款開源多模態模型，支援文本、影像、音訊和影片，擁有256K上下文視窗，專為筆記型電腦上的智慧體工作流和本地部署設計。本文解析其架構、特性、基準測試對比及開發者上手指南。

來源Analytics Vidhya作者: Harsh Mishra

文章情報

工程師進階

要點

Gemma 4 12B Unified採用無編碼器架構，直接投影影像和音訊到LLM嵌入空間，簡化多模態處理。
支援256K上下文、函式呼叫、35種以上語言、語音識別和影片理解，可在Ollama等本地工具執行。
基準測試顯示其效能介於4B邊緣模型和26B MoE模型之間，為本地推理和編碼提供實用中間選擇。
該模型填補了邊緣裝置與高階工作站之間的部署空白，是Google推動本地AI的關鍵一步。

為什麼重要

這條新聞值得關注，因為Gemma 4 12B Unified採用無編碼器架構，直接投影影像和音訊到LLM嵌入空間，簡化多模態處理。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

2026年6月3日，Google DeepMind釋出了Gemma 4 12B Unified，一款面向開發者筆記型電腦的開源多模態模型。該模型能夠統一處理文本、影像、音訊和影片，擁有256K的上下文視窗，專為智慧體工作流和本地部署最佳化。

Gemma 4 12B Unified是Gemma 4系列的中等規模模型，填補了邊緣模型（如E4B）與大型MoE模型（26B A4B）之間的空白。它採用創新的無編碼器架構，透過一個35M引數的視覺嵌入器將48×48畫素的影像塊直接投影到LLM隱藏空間，音訊則透過將16kHz音訊切片為40ms幀併線性投影實現，從而消除了傳統多模態模型中獨立編碼器的複雜性。

該模型支援文本生成、長上下文推理（最高256K tokens）、程式碼補全與糾正、函式呼叫、影片幀理解、自動語音識別及翻譯，並覆蓋35種以上語言，預訓練資料包含140多種語言。Google還特別強調了其在語音識別、說話人分離、影片理解和智慧體推理方面的能力。

與早期Gemma 4模型相比，12B版本的主要改進包括：統一的編碼器自由設計，使得音訊成為中等規模模型的原生能力；上下文視窗從128K擴充套件至256K；以及更簡單的微調流程。模型還支援多token預測（MTP）草稿器，用於推測解碼以降低延遲。

開發者可以透過Hugging Face、Kaggle、Ollama、LM Studio等多種工具獲取該模型。使用Ollama時，只需執行“ollama run gemma4:12b”即可下載並互動。對於影像理解，Google建議在提示中將影像內容置於文本之前，使用Python SDK即可輕鬆實現。

官方基準測試顯示，Gemma 4 12B Unified在MMLU Pro（77.2%）、AIME 2026（77.5%）、LiveCodeBench v6（72.0%）等指標上均介於E4B和26B A4B之間，在GPQA Diamond（78.8%）和MMMU Pro（69.1%）上也表現出色。它在FLEURS語音識別任務中達到0.069的低詞錯誤率，進一步證明了多模態能力。

總的來說，Gemma 4 12B Unified不僅是技術上的增量更新，更是Google將強大多模態AI帶入開發者本地機器的藍圖。它透過單一解碼器處理文本、影像和音訊，為本地語音、編碼和文件工作流消除了管道複雜性。技術領導者可將其部署為強大的本地開源模型，同時根據延遲、安全和合規要求進行擴充套件。