AI News HubLIVE
站内改写1 分鐘閱讀

GGUF 提升性能與模型支持

Ollama 0.30 現已發佈,通過 llama.cpp 帶來更優性能和 GGUF 模型兼容性,增強了 Apple Silicon 上的 MLX 引擎,支持更多硬件和模型。

Ollama 0.30 正式發佈,帶來顯著的性能提升和更廣泛的模型兼容性。此次更新集成了 llama.cpp 對 GGUF 格式的支持,在原有 Apple Silicon 的 MLX 引擎基礎上,進一步擴展到更多硬件平台。

性能方面,NVIDIA GPU 的處理速度最高提升 20%,這得益於 NVIDIA 與 llama.cpp 團隊的聯合優化。以 Gemma 4 26B 模型為例,在 RTX 5090 上使用 Q4_K_M 量化,實測吞吐量明顯提升。此外,Vulkan 現已成為默認選項,為 AMD 和 Intel 設備提供 GPU 加速,用户無需安裝專用庫即可直接運行模型。

模型支持範圍大幅擴展。Ollama 0.30 兼容更多 GGUF 生態模型,包括 LFM、Prism 等系列,以及 Unsloth 發佈的微調模型。用户可從 Hugging Face 下載 GGUF 文件或目錄,通過創建 Modelfile 並運行命令來加載模型:

FROM ./my-model.Q4_K_M.gguf ollama create -f Modelfile my-model ollama run my-model

對於支持工具調用的模型,Ollama 0.30 可直接將其用於編碼助手與個人助理。例如,配合 Claude Code、Hermes Agent 或 OpenClaw 等工具,只需一條命令即可啓用:

ollama launch claude --model my-model

使用 ollama show my-model 可驗證模型是否具備工具調用能力。

Ollama 團隊感謝 llama.cpp 維護者 Georgi Gerganov 及 NVIDIA、AMD、Qualcomm、Intel 等合作伙伴的貢獻。如需反饋,可通過 Discord 或郵件 [email protected] 聯繫。