2026-06-18站内改写2 分鐘閱讀更新: 2026-06-18

Cerebras 上的 Gemma 4——最快的推理現已多模態

Gemma 4 現已在 Cerebras Inference 上私人預覽，本月晚些時候全面可用。該多模態模型在 Cerebras 上以超過每秒1500 tokens的速度執行，支援計算機使用和影像驅動的智慧體工作流，比 Claude Haiku 快15倍。

來源Cerebras Blog

Cerebras 團隊宣佈，Gemma 4 現已在 Cerebras Inference 上私人預覽，並將於本月晚些時候全面可用。這是 Cerebras 推理平臺首次支援多模態模型，為開發者開啟了全新的應用領域，包括計算機使用和影像驅動的智慧體工作流，所有操作均以超過每秒1500 tokens的速度執行。

作為快速推理領域的領導者，Cerebras 已在眾多開放權重模型上設定了基準，包括 Kimi、GLM、GPT-OSS 和 Qwen。Gemma 4 是 Cerebras 平臺引入的第一個 Google DeepMind 模型，也是第一個允許開發者將影像——截圖、文件、圖表、使用者介面狀態——輸入到以晶圓級速度執行的模型中的模型。結果是：視覺和智慧體迴圈曾經在 GPU 上感覺遲緩，現在變得快速而響應靈敏。

Cerebras 以超過1500輸出 tokens/s 的速度執行 Gemma 4。相比之下，Claude Haiku 的執行速度大約為100 tokens/s。這意味著在質量相當且每個輸出 token 價格更低的情況下，速度提升了15倍。速度在多模態和智慧體工作負載中尤為關鍵，這些工作負載通常需要多次呼叫模型。在100 tokens/s 的速度下，這些迴圈太慢，無法提供即時輸入。而在1500 TPS 下，應用和使用者可以同時協作，前端迭代幾乎瞬時完成，文件和截圖工作流在更短的時間內返回，開發者可以在同一產品中實現更多的驗證和重試。

Gemma 4 31B 是 Google DeepMind 開放權重 Gemma 系列的旗艦模型——一個密集的多模態模型，專為質量和效率而設計，而非原始引數數量。密集模型在不犧牲 MoE 模型的大記憶體佔用情況下實現了高模型智慧。Gemma 4 找到了一個最佳平衡點：足夠強大用於嚴肅工作，高效服務，並且足夠開放以支援構建而不受供應商鎖定。在 Artificial Analysis Intelligence Index 上，Gemma 4 31B 得分為29，實際上與 Claude Haiku 的30相匹配。區別在於 Gemma 4 在 Apache 2.0 下開放權重，並且在 Cerebras 上執行速度快一個數量級。

Gemma 4 是 Cerebras 上第一個支援影像理解的模型。它支援結合文本和影像的工作流——截圖、圖表、使用者介面狀態、掃描頁面、表單、圖表。它還開啟了計算機使用和機器人應用的可能性。將視覺帶到晶圓級硬體是平臺的一個里程碑。多模態支援從 Gemma 4 開始，未來將擴充套件到更多模型。影像理解與晶圓級速度的結合解鎖了新的產品體驗：一個模型可以看到儀表盤，進行推理，返回結構化輸出，並足夠快地採取行動，以保持人類或智慧體在迴圈中。

具體應用示例包括：截圖洞察：將密集的儀表盤截圖或文件頁面輸入模型，即時識別重要內容，解釋發現，並返回結構化輸出。長文本摘要：輸入研究報告或技術簡報，快速獲得清晰、可決策的摘要，足以在一次會話中閱讀、反應和重新查詢。截圖到補丁：利用中等模型的優勢，輸入有問題的 UI 截圖、原始碼和控制台錯誤，返回最小的補丁和驗證檢查。

Gemma 4 於6月18日進入 Cerebras 上的私人預覽，全面可用預計在本月底。Cerebras 推薦將其作為平臺上的參考中等規模模型：如果您正在從 Llama、GPT-OSS 或 Haiku 遷移，Gemma 4 在 Cerebras 速度下提供同等或更高的智慧。如果您正在構建多模態推理、文件理解、快速摘要或定向編碼工作流，並且推理速度是瓶頸，Cerebras 歡迎您的反饋。