2026-06-05 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

GGUF 提升性能与模型支持

Ollama 0.30 现已发布，通过 llama.cpp 带来更优性能和 GGUF 模型兼容性，增强了 Apple Silicon 上的 MLX 引擎，支持更多硬件和模型。

Ollama 0.30 正式发布，带来显著的性能提升和更广泛的模型兼容性。此次更新集成了 llama.cpp 对 GGUF 格式的支持，在原有 Apple Silicon 的 MLX 引擎基础上，进一步扩展到更多硬件平台。

性能方面，NVIDIA GPU 的处理速度最高提升 20%，这得益于 NVIDIA 与 llama.cpp 团队的联合优化。以 Gemma 4 26B 模型为例，在 RTX 5090 上使用 Q4_K_M 量化，实测吞吐量明显提升。此外，Vulkan 现已成为默认选项，为 AMD 和 Intel 设备提供 GPU 加速，用户无需安装专用库即可直接运行模型。

模型支持范围大幅扩展。Ollama 0.30 兼容更多 GGUF 生态模型，包括 LFM、Prism 等系列，以及 Unsloth 发布的微调模型。用户可从 Hugging Face 下载 GGUF 文件或目录，通过创建 Modelfile 并运行命令来加载模型：

FROM ./my-model.Q4_K_M.gguf ollama create -f Modelfile my-model ollama run my-model

对于支持工具调用的模型，Ollama 0.30 可直接将其用于编码助手与个人助理。例如，配合 Claude Code、Hermes Agent 或 OpenClaw 等工具，只需一条命令即可启用：

ollama launch claude --model my-model

使用 ollama show my-model 可验证模型是否具备工具调用能力。

Ollama 团队感谢 llama.cpp 维护者 Georgi Gerganov 及 NVIDIA、AMD、Qualcomm、Intel 等合作伙伴的贡献。如需反馈，可通过 Discord 或邮件 [email protected] 联系。