2026-06-05 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

GGUF 提升性能與模型支持

Ollama 0.30 現已發佈，通過 llama.cpp 帶來更優性能和 GGUF 模型兼容性，增強了 Apple Silicon 上的 MLX 引擎，支持更多硬件和模型。

Ollama 0.30 正式發佈，帶來顯著的性能提升和更廣泛的模型兼容性。此次更新集成了 llama.cpp 對 GGUF 格式的支持，在原有 Apple Silicon 的 MLX 引擎基礎上，進一步擴展到更多硬件平台。

性能方面，NVIDIA GPU 的處理速度最高提升 20%，這得益於 NVIDIA 與 llama.cpp 團隊的聯合優化。以 Gemma 4 26B 模型為例，在 RTX 5090 上使用 Q4_K_M 量化，實測吞吐量明顯提升。此外，Vulkan 現已成為默認選項，為 AMD 和 Intel 設備提供 GPU 加速，用户無需安裝專用庫即可直接運行模型。

模型支持範圍大幅擴展。Ollama 0.30 兼容更多 GGUF 生態模型，包括 LFM、Prism 等系列，以及 Unsloth 發佈的微調模型。用户可從 Hugging Face 下載 GGUF 文件或目錄，通過創建 Modelfile 並運行命令來加載模型：

FROM ./my-model.Q4_K_M.gguf ollama create -f Modelfile my-model ollama run my-model

對於支持工具調用的模型，Ollama 0.30 可直接將其用於編碼助手與個人助理。例如，配合 Claude Code、Hermes Agent 或 OpenClaw 等工具，只需一條命令即可啓用：

ollama launch claude --model my-model

使用 ollama show my-model 可驗證模型是否具備工具調用能力。

Ollama 團隊感謝 llama.cpp 維護者 Georgi Gerganov 及 NVIDIA、AMD、Qualcomm、Intel 等合作伙伴的貢獻。如需反饋，可通過 Discord 或郵件 [email protected] 聯繫。