2026-06-18站内改写3 分で読了更新: 2026-06-18

Cerebras 上の Gemma 4—最速の推論がマルチモーダルに

Gemma 4 が Cerebras Inference でプライベートプレビュー提供開始、今月下旬に一般公開予定。このマルチモーダルモデルは Cerebras 上で毎秒1500トークン以上で動作し、コンピュータ使用や画像駆動のエージェントワークフローを実現、Claude Haiku の15倍の速度。

ソースCerebras Blog

Cerebras チームは、Gemma 4 が Cerebras Inference でプライベートプレビュー提供を開始し、今月末に一般公開されることを発表しました。このマルチモーダルモデルにより、Cerebras Inference 上で全く新しいクラスのアプリケーション、例えばコンピュータ使用や画像駆動のエージェントワークフローが可能になり、すべて毎秒1500トークン以上の速度で動作します。

高速推論のカテゴリリーダーとして、Cerebras は Kimi、GLM、GPT-OSS、Qwen など多くのオープンウェイトモデルでベンチマークを設定してきました。Gemma 4 は Cerebras プラットフォームに導入された最初の Google DeepMind モデルであり、開発者が画像（スクリーンショット、ドキュメント、チャート、UI状態）をウェハースケールの速度で動作するモデルに入力できる最初のモデルです。その結果、GPU 上では遅かったビジュアルおよびエージェントループが高速で応答性の高いものになります。

Cerebras は Gemma 4 を毎秒1500出力トークン以上で実行します。比較すると、Claude Haiku は約100トークン/秒で動作します。これは、最も直接比較可能なプロダクションモデルに対して15倍の高速化であり、品質は同じバンドに位置し、出力トークンあたりの価格も低くなっています。速度は、Gemma 4 が作られたワークロードで特に重要です。マルチモーダルおよびエージェントループは、モデルを一度呼び出すことはほとんどありません。ビジュアル入力を検査し、推論し、構造化出力を生成し、ツールを呼び出し、結果を確認し、再試行します。100トークン/秒ではこれらのループはリアルタイム入力には遅すぎます。1500 TPS では、アプリケーションとユーザーが同時に作業でき、フロントエンドの反復はほぼ瞬時になり、ドキュメントやスクリーンショットのワークフローは短時間で戻り、開発者は同じ製品により多くの検証と再試行を組み込むことができます。

Gemma 4 31B は Google DeepMind のオープンウェイト Gemma ファミリーのフラッグシップモデルです。密度型マルチモーダルモデルで、生のパラメータ数ではなく品質と効率を重視して設計されています。密度型モデルは、MoE モデルの大きなメモリフットプリントなしに高いモデルインテリジェンスを実現します。Gemma 4 はスイートスポットを捉えています：本格的な作業に十分な強さ、効率的なサービス、そしてベンダーロックインなしに構築できるオープン性。Artificial Analysis Intelligence Index では、Gemma 4 31B は29をスコアし、事実上 Claude Haiku の30に匹敵します。違いは、Gemma 4 が Apache 2.0 の下でオープンウェイトであり、Cerebras 上で一桁速いことです。

Gemma 4 は Cerebras 上で画像理解をサポートする最初のモデルです。テキストと画像（スクリーンショット、チャート、UI状態、スキャンされたページ、フォーム、図）を組み合わせたワークフローを可能にします。また、コンピュータ使用やロボティクスアプリケーションも解き放ちます。ウェハースケールハードウェアにビジョンをもたらすことは、プラットフォームのマイルストーンです。マルチモーダルサポートは Gemma 4 から始まり、今後さらに多くのモデルに拡大されます。画像理解とウェハースケール速度の組み合わせが、新しい製品体験を実現します：ダッシュボードを見て、推論し、構造化出力を返し、人間やエージェントをループに保つのに十分な速さで行動するモデル。

具体的なユースケースには以下が含まれます：スクリーンショットインサイト：高密度のダッシュボードスクリーンショットやドキュメントページをモデルに与え、リアルタイムで重要な事項を特定し、発見を説明し、構造化出力を返します。長文要約：研究レポートや技術ブリーフを入力し、迅速に明確で意思決定可能な要約を取得し、一度のセッションで読んで反応し再クエリできます。スクリーンショットからパッチへ：中型モデルの強みを活かし、壊れたUIのスクリーンショット、ソースコード、コンソールエラーを入力し、最小限のパッチとそれを検証するチェックを返します。

Gemma 4 は6月18日に Cerebras でプライベートプレビューが開始され、月末に一般公開予定です。Cerebras は、これをプラットフォーム上のリファレンス中型モデルとして推奨しています。Llama、GPT-OSS、Haiku からの移行を検討している場合、Gemma 4 は Cerebras の速度で同等以上の知能を提供します。マルチモーダル推論、ドキュメント理解、高速要約、ターゲットコーディングワークフローを構築しており、推論速度がボトルネックになっている場合は、ぜひご連絡ください。