AI News HubLIVE
站内改写1 分钟阅读

GGUF 提升性能与模型支持

Ollama 0.30 现已发布,通过 llama.cpp 带来更优性能和 GGUF 模型兼容性,增强了 Apple Silicon 上的 MLX 引擎,支持更多硬件和模型。

Ollama 0.30 正式发布,带来显著的性能提升和更广泛的模型兼容性。此次更新集成了 llama.cpp 对 GGUF 格式的支持,在原有 Apple Silicon 的 MLX 引擎基础上,进一步扩展到更多硬件平台。

性能方面,NVIDIA GPU 的处理速度最高提升 20%,这得益于 NVIDIA 与 llama.cpp 团队的联合优化。以 Gemma 4 26B 模型为例,在 RTX 5090 上使用 Q4_K_M 量化,实测吞吐量明显提升。此外,Vulkan 现已成为默认选项,为 AMD 和 Intel 设备提供 GPU 加速,用户无需安装专用库即可直接运行模型。

模型支持范围大幅扩展。Ollama 0.30 兼容更多 GGUF 生态模型,包括 LFM、Prism 等系列,以及 Unsloth 发布的微调模型。用户可从 Hugging Face 下载 GGUF 文件或目录,通过创建 Modelfile 并运行命令来加载模型:

FROM ./my-model.Q4_K_M.gguf ollama create -f Modelfile my-model ollama run my-model

对于支持工具调用的模型,Ollama 0.30 可直接将其用于编码助手与个人助理。例如,配合 Claude Code、Hermes Agent 或 OpenClaw 等工具,只需一条命令即可启用:

ollama launch claude --model my-model

使用 ollama show my-model 可验证模型是否具备工具调用能力。

Ollama 团队感谢 llama.cpp 维护者 Georgi Gerganov 及 NVIDIA、AMD、Qualcomm、Intel 等合作伙伴的贡献。如需反馈,可通过 Discord 或邮件 [email protected] 联系。