Ollama新MLX引擎:Mac上本地LLM性能翻倍,體驗大幅提升
Ollama推出的新MLX引擎大幅提升了Mac上本地LLM的性能和輸出質量,尤其對編碼助手等代理工作流有顯著優化。
我一直使用Ollama在Mac上運行本地LLM,效果不錯,但Mac的整體性能會受到影響,因為本地LLM資源消耗大。我使用的是MacBook Air M5,16GB內存,雖然不算最強,但運行少於70億參數的模型已經足夠。
升級到Ollama的新MLX引擎後,情況徹底改變。性能大幅提升,一切響應更迅速,推理速度幾乎翻倍。如果你已經在Mac上通過Ollama運行本地LLM,這將是自Apple Silicon成為重要推理平台以來最大的升級之一。最新的MLX引擎改變了模型表示、內存使用方式以及代理工作流的緩存策略,對Claude Code、OpenClaw、Aider等多代理設置也有巨大影響。
MLX引擎終於更好地發揮了Apple Silicon的優勢。本地LLM用户大多知道Apple Silicon在相對適中的硬件下表現出色。我的MacBook Air M5 16GB處理小模型沒有太大問題,但總是存在權衡——運行本地模型常會拖慢系統其他部分。Ollama的新MLX引擎通過更依賴Apple的MLX框架和統一內存架構改變了這一點。Apple Silicon允許CPU和GPU共享同一內存池,而不是分開處理,更新後的引擎更充分地利用了這種設計,減少了推理過程中的不必要內存移動。
改進不僅限於內存管理。Ollama現在通過MLX的即時編譯器將多個GPU操作合併為更大的Metal內核,降低了推理開銷。引擎還改進了GPU支持的採樣,使token生成速度大大加快。Ollama聲稱更新後的引擎比之前的Q4_K_M實現提供約20%的輸出速度提升,這與我的日常使用體驗相符。我的工作流主要是編程問題、生成腳本或測試自動化想法,這些短請求現在每個都感覺更流暢。
更小模型現在產生更好的響應。性能改進通常最受關注,但我認為質量改進同樣重要。Ollama更新的MLX引擎現在支持NVIDIA的模型優化NVFP4量化格式。量化減少了運行模型所需的內存,但也會從原始權重中移除一些信息。NVFP4顯著減少了這種犧牲。根據Ollama對Gemma 4 12B的測量,新格式在保持類似內存需求的同時將質量損失減少約一半。基準測試顯示困惑度低於Q4_K_M,表明模型行為更接近原始BF16版本。
我的Mac無法舒適運行超大模型,所以我主要使用較小的模型。更好的量化使小模型無需額外硬件就能產生更強結果。這對使用MacBook Air或其他有限內存Apple Silicon系統的用户來説是一個有意義的升級。我現在注意到生成的代碼更一致地遵循指令,後續提示需要的修正更少。在較長對話中,回覆也更連貫,減少了重寫提示的時間。
編碼代理受益更多。最讓我驚訝的功能與原始推理速度無關。Ollama還重新設計了MLX引擎在代理工作流中處理緩存模型狀態的方式。這很重要,因為編碼助手不斷向模型重新發送大量上下文。每個工具調用都包括系統提示、工具定義、之前的對話歷史和最近加載的文件。傳統的前綴緩存只在每個請求直接從前一個請求繼續時才有效。現代編碼代理很少這樣,因為它們經常分支到子代理、重試失敗請求或從可見對話中移除推理token。這些變化通常迫使模型重複處理相同上下文,儘管大部分從未改變。
Ollama通過新的快照系統解決了這個問題。引擎在對話的關鍵點存儲可複用的模型狀態,而不是完全依賴前綴緩存。獨立的代理會話可以從這些保存的狀態恢復,而不是從頭開始重建。思維模型也受益,因為在推理token從對話歷史中消失之前,快照保留了有用的狀態。
現在Ollama好多了。這次更新改進了你使用本地LLM的一切,無論是聊天還是用作編碼助手。我的本地工作流感覺更快,因為重複的工具調用不再花費大量時間重建上下文。更快的響應時間和更好的輸出質量使新MLX引擎成為我本地AI設置中最值得的升級之一。Ollama是一個在本地計算機上下載和運行各種開源大型語言模型的平台。