2026-06-05 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

GGUF 提升效能與模型支援

Ollama 0.30 現已釋出，透過 llama.cpp 帶來更優效能和 GGUF 模型相容性，增強了 Apple Silicon 上的 MLX 引擎，支援更多硬體和模型。

Ollama 0.30 正式釋出，帶來顯著的效能提升和更廣泛的模型相容性。此次更新整合了 llama.cpp 對 GGUF 格式的支援，在原有 Apple Silicon 的 MLX 引擎基礎上，進一步擴充套件到更多硬體平臺。

效能方面，NVIDIA GPU 的處理速度最高提升 20%，這得益於 NVIDIA 與 llama.cpp 團隊的聯合最佳化。以 Gemma 4 26B 模型為例，在 RTX 5090 上使用 Q4_K_M 量化，實測吞吐量明顯提升。此外，Vulkan 現已成為預設選項，為 AMD 和 Intel 裝置提供 GPU 加速，使用者無需安裝專用庫即可直接執行模型。

模型支援範圍大幅擴充套件。Ollama 0.30 相容更多 GGUF 生態模型，包括 LFM、Prism 等系列，以及 Unsloth 釋出的微調模型。使用者可從 Hugging Face 下載 GGUF 檔案或目錄，透過建立 Modelfile 並執行命令來載入模型：

FROM ./my-model.Q4_K_M.gguf ollama create -f Modelfile my-model ollama run my-model

對於支援工具呼叫的模型，Ollama 0.30 可直接將其用於編碼助手與個人助理。例如，配合 Claude Code、Hermes Agent 或 OpenClaw 等工具，只需一條命令即可啟用：

ollama launch claude --model my-model

使用 ollama show my-model 可驗證模型是否具備工具呼叫能力。

Ollama 團隊感謝 llama.cpp 維護者 Georgi Gerganov 及 NVIDIA、AMD、Qualcomm、Intel 等合作伙伴的貢獻。如需反饋，可透過 Discord 或郵件 [email protected] 聯絡。