2026-06-05 09:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

GGUFによるパフォーマンス向上とモデルサポートの拡充

Ollama 0.30がリリースされ、llama.cppを通じてGGUFモデルの互換性とパフォーマンスが向上。Appleシリコン上のMLXエンジンを補完し、より多くのハードウェアでモデルを実行可能に。

Ollama 0.30が正式にリリースされ、パフォーマンスの向上とGGUF形式のモデル互換性が実現しました。今回のアップデートでは、llama.cppの統合によりAppleシリコン上のMLXエンジンを補完し、より幅広いハードウェアでモデルを実行できるようになりました。

パフォーマンス面では、NVIDIA GPUで最大20%のスループット向上を達成。これはNVIDIAとllama.cppチームによる最適化の成果で、Gemma 4 26BモデルをRTX 5090上でQ4_K_M量子化を用いてテストしました。また、Vulkanがデフォルトで有効化され、AMDやIntelデバイスでもGPUアクセラレーションが利用可能に。ベンダー固有のライブラリをインストールすることなく、すぐにGPU上でモデルを実行できます。

対応モデルも拡大。LFM、Prismといったモデルファミリーや、Unslothが公開するファインチューンモデルを含むGGUFエコシステムとの互換性が向上しました。Hugging FaceからGGUFファイルをダウンロードし、Modelfileを作成して以下のコマンドで実行できます：

FROM ./my-model.Q4_K_M.gguf ollama create -f Modelfile my-model ollama run my-model

ツール呼び出しをサポートするモデルは、その機能をOllama上でもそのまま利用可能。Claude Code、Hermes Agent、OpenClawなどのコーディングエージェントと組み合わせて、ワンコマンドで使用できます：

ollama launch claude --model my-model

ツール呼び出しの対応状況は ollama show my-model で確認できます。

Ollamaチームは、llama.cppメンテナのGeorgi Gerganov氏、および各プラットフォームでのGGML最適化に協力いただいたNVIDIA、AMD、Qualcomm、Intelの各社に感謝の意を表します。フィードバックはDiscordまたは[email protected]まで。