GGUFによるパフォーマンス向上とモデルサポートの拡充
Ollama 0.30がリリースされ、llama.cppを通じてGGUFモデルの互換性とパフォーマンスが向上。Appleシリコン上のMLXエンジンを補完し、より多くのハードウェアでモデルを実行可能に。
Ollama 0.30が正式にリリースされ、パフォーマンスの向上とGGUF形式のモデル互換性が実現しました。今回のアップデートでは、llama.cppの統合によりAppleシリコン上のMLXエンジンを補完し、より幅広いハードウェアでモデルを実行できるようになりました。
パフォーマンス面では、NVIDIA GPUで最大20%のスループット向上を達成。これはNVIDIAとllama.cppチームによる最適化の成果で、Gemma 4 26BモデルをRTX 5090上でQ4_K_M量子化を用いてテストしました。また、Vulkanがデフォルトで有効化され、AMDやIntelデバイスでもGPUアクセラレーションが利用可能に。ベンダー固有のライブラリをインストールすることなく、すぐにGPU上でモデルを実行できます。
対応モデルも拡大。LFM、Prismといったモデルファミリーや、Unslothが公開するファインチューンモデルを含むGGUFエコシステムとの互換性が向上しました。Hugging FaceからGGUFファイルをダウンロードし、Modelfileを作成して以下のコマンドで実行できます:
FROM ./my-model.Q4_K_M.gguf ollama create -f Modelfile my-model ollama run my-model
ツール呼び出しをサポートするモデルは、その機能をOllama上でもそのまま利用可能。Claude Code、Hermes Agent、OpenClawなどのコーディングエージェントと組み合わせて、ワンコマンドで使用できます:
ollama launch claude --model my-model
ツール呼び出しの対応状況は ollama show my-model で確認できます。
Ollamaチームは、llama.cppメンテナのGeorgi Gerganov氏、および各プラットフォームでのGGML最適化に協力いただいたNVIDIA、AMD、Qualcomm、Intelの各社に感謝の意を表します。フィードバックはDiscordまたは[email protected]まで。