GGUF 提升效能與模型支援
Ollama 0.30 現已釋出,透過 llama.cpp 帶來更優效能和 GGUF 模型相容性,增強了 Apple Silicon 上的 MLX 引擎,支援更多硬體和模型。
Ollama 0.30 正式釋出,帶來顯著的效能提升和更廣泛的模型相容性。此次更新整合了 llama.cpp 對 GGUF 格式的支援,在原有 Apple Silicon 的 MLX 引擎基礎上,進一步擴充套件到更多硬體平臺。
效能方面,NVIDIA GPU 的處理速度最高提升 20%,這得益於 NVIDIA 與 llama.cpp 團隊的聯合最佳化。以 Gemma 4 26B 模型為例,在 RTX 5090 上使用 Q4_K_M 量化,實測吞吐量明顯提升。此外,Vulkan 現已成為預設選項,為 AMD 和 Intel 裝置提供 GPU 加速,使用者無需安裝專用庫即可直接執行模型。
模型支援範圍大幅擴充套件。Ollama 0.30 相容更多 GGUF 生態模型,包括 LFM、Prism 等系列,以及 Unsloth 釋出的微調模型。使用者可從 Hugging Face 下載 GGUF 檔案或目錄,透過建立 Modelfile 並執行命令來載入模型:
FROM ./my-model.Q4_K_M.gguf ollama create -f Modelfile my-model ollama run my-model
對於支援工具呼叫的模型,Ollama 0.30 可直接將其用於編碼助手與個人助理。例如,配合 Claude Code、Hermes Agent 或 OpenClaw 等工具,只需一條命令即可啟用:
ollama launch claude --model my-model
使用 ollama show my-model 可驗證模型是否具備工具呼叫能力。
Ollama 團隊感謝 llama.cpp 維護者 Georgi Gerganov 及 NVIDIA、AMD、Qualcomm、Intel 等合作伙伴的貢獻。如需反饋,可透過 Discord 或郵件 [email protected] 聯絡。