AI News HubLIVE
站内改写2 分鐘閱讀

Cerebras 上的 Gemma 4——最快的推理現已多模態

Gemma 4 現已在 Cerebras Inference 上私人預覽,本月晚些時候全面可用。該多模態模型在 Cerebras 上以超過每秒1500 tokens的速度執行,支援計算機使用和影像驅動的智慧體工作流,比 Claude Haiku 快15倍。

Cerebras 團隊宣佈,Gemma 4 現已在 Cerebras Inference 上私人預覽,並將於本月晚些時候全面可用。這是 Cerebras 推理平臺首次支援多模態模型,為開發者開啟了全新的應用領域,包括計算機使用和影像驅動的智慧體工作流,所有操作均以超過每秒1500 tokens的速度執行。

作為快速推理領域的領導者,Cerebras 已在眾多開放權重模型上設定了基準,包括 Kimi、GLM、GPT-OSS 和 Qwen。Gemma 4 是 Cerebras 平臺引入的第一個 Google DeepMind 模型,也是第一個允許開發者將影像——截圖、文件、圖表、使用者介面狀態——輸入到以晶圓級速度執行的模型中的模型。結果是:視覺和智慧體迴圈曾經在 GPU 上感覺遲緩,現在變得快速而響應靈敏。

Cerebras 以超過1500輸出 tokens/s 的速度執行 Gemma 4。相比之下,Claude Haiku 的執行速度大約為100 tokens/s。這意味著在質量相當且每個輸出 token 價格更低的情況下,速度提升了15倍。速度在多模態和智慧體工作負載中尤為關鍵,這些工作負載通常需要多次呼叫模型。在100 tokens/s 的速度下,這些迴圈太慢,無法提供即時輸入。而在1500 TPS 下,應用和使用者可以同時協作,前端迭代幾乎瞬時完成,文件和截圖工作流在更短的時間內返回,開發者可以在同一產品中實現更多的驗證和重試。

Gemma 4 31B 是 Google DeepMind 開放權重 Gemma 系列的旗艦模型——一個密集的多模態模型,專為質量和效率而設計,而非原始引數數量。密集模型在不犧牲 MoE 模型的大記憶體佔用情況下實現了高模型智慧。Gemma 4 找到了一個最佳平衡點:足夠強大用於嚴肅工作,高效服務,並且足夠開放以支援構建而不受供應商鎖定。在 Artificial Analysis Intelligence Index 上,Gemma 4 31B 得分為29,實際上與 Claude Haiku 的30相匹配。區別在於 Gemma 4 在 Apache 2.0 下開放權重,並且在 Cerebras 上執行速度快一個數量級。

Gemma 4 是 Cerebras 上第一個支援影像理解的模型。它支援結合文本和影像的工作流——截圖、圖表、使用者介面狀態、掃描頁面、表單、圖表。它還開啟了計算機使用和機器人應用的可能性。將視覺帶到晶圓級硬體是平臺的一個里程碑。多模態支援從 Gemma 4 開始,未來將擴充套件到更多模型。影像理解與晶圓級速度的結合解鎖了新的產品體驗:一個模型可以看到儀表盤,進行推理,返回結構化輸出,並足夠快地採取行動,以保持人類或智慧體在迴圈中。

具體應用示例包括:截圖洞察:將密集的儀表盤截圖或文件頁面輸入模型,即時識別重要內容,解釋發現,並返回結構化輸出。長文本摘要:輸入研究報告或技術簡報,快速獲得清晰、可決策的摘要,足以在一次會話中閱讀、反應和重新查詢。截圖到補丁:利用中等模型的優勢,輸入有問題的 UI 截圖、原始碼和控制台錯誤,返回最小的補丁和驗證檢查。

Gemma 4 於6月18日進入 Cerebras 上的私人預覽,全面可用預計在本月底。Cerebras 推薦將其作為平臺上的參考中等規模模型:如果您正在從 Llama、GPT-OSS 或 Haiku 遷移,Gemma 4 在 Cerebras 速度下提供同等或更高的智慧。如果您正在構建多模態推理、文件理解、快速摘要或定向編碼工作流,並且推理速度是瓶頸,Cerebras 歡迎您的反饋。