Ollama新MLX引擎:Mac上本地LLM效能翻倍,體驗大幅提升
Ollama推出的新MLX引擎大幅提升了Mac上本地LLM的效能和輸出質量,尤其對編碼助手等代理工作流有顯著最佳化。
我一直使用Ollama在Mac上執行本地LLM,效果不錯,但Mac的整體效能會受到影響,因為本地LLM資源消耗大。我使用的是MacBook Air M5,16GB記憶體,雖然不算最強,但執行少於70億引數的模型已經足夠。
升級到Ollama的新MLX引擎後,情況徹底改變。效能大幅提升,一切響應更迅速,推理速度幾乎翻倍。如果你已經在Mac上透過Ollama執行本地LLM,這將是自Apple Silicon成為重要推理平臺以來最大的升級之一。最新的MLX引擎改變了模型表示、記憶體使用方式以及代理工作流的快取策略,對Claude Code、OpenClaw、Aider等多代理設定也有巨大影響。
MLX引擎終於更好地發揮了Apple Silicon的優勢。本地LLM使用者大多知道Apple Silicon在相對適中的硬體下表現出色。我的MacBook Air M5 16GB處理小模型沒有太大問題,但總是存在權衡——執行本地模型常會拖慢系統其他部分。Ollama的新MLX引擎透過更依賴Apple的MLX框架和統一記憶體架構改變了這一點。Apple Silicon允許CPU和GPU共享同一記憶體池,而不是分開處理,更新後的引擎更充分地利用了這種設計,減少了推理過程中的不必要記憶體移動。
改進不僅限於記憶體管理。Ollama現在透過MLX的即時編譯器將多個GPU操作合併為更大的Metal核心,降低了推理開銷。引擎還改進了GPU支援的取樣,使token生成速度大大加快。Ollama聲稱更新後的引擎比之前的Q4_K_M實現提供約20%的輸出速度提升,這與我的日常使用體驗相符。我的工作流主要是程式設計問題、生成指令碼或測試自動化想法,這些短請求現在每個都感覺更流暢。
更小模型現在產生更好的響應。效能改進通常最受關注,但我認為質量改進同樣重要。Ollama更新的MLX引擎現在支援NVIDIA的模型最佳化NVFP4量化格式。量化減少了執行模型所需的記憶體,但也會從原始權重中移除一些資訊。NVFP4顯著減少了這種犧牲。根據Ollama對Gemma 4 12B的測量,新格式在保持類似記憶體需求的同時將質量損失減少約一半。基準測試顯示困惑度低於Q4_K_M,表明模型行為更接近原始BF16版本。
我的Mac無法舒適執行超大模型,所以我主要使用較小的模型。更好的量化使小模型無需額外硬體就能產生更強結果。這對使用MacBook Air或其他有限記憶體Apple Silicon系統的使用者來說是一個有意義的升級。我現在注意到生成的程式碼更一致地遵循指令,後續提示需要的修正更少。在較長對話中,回覆也更連貫,減少了重寫提示的時間。
編碼代理受益更多。最讓我驚訝的功能與原始推理速度無關。Ollama還重新設計了MLX引擎在代理工作流中處理快取模型狀態的方式。這很重要,因為編碼助手不斷向模型重新傳送大量上下文。每個工具呼叫都包括系統提示、工具定義、之前的對話歷史和最近載入的檔案。傳統的字首快取只在每個請求直接從前一個請求繼續時才有效。現代編碼代理很少這樣,因為它們經常分支到子代理、重試失敗請求或從可見對話中移除推理token。這些變化通常迫使模型重複處理相同上下文,儘管大部分從未改變。
Ollama透過新的快照系統解決了這個問題。引擎在對話的關鍵點儲存可複用的模型狀態,而不是完全依賴字首快取。獨立的代理會話可以從這些儲存的狀態恢復,而不是從頭開始重建。思維模型也受益,因為在推理token從對話歷史中消失之前,快照保留了有用的狀態。
現在Ollama好多了。這次更新改進了你使用本地LLM的一切,無論是聊天還是用作編碼助手。我的本地工作流感覺更快,因為重複的工具呼叫不再花費大量時間重建上下文。更快的響應時間和更好的輸出質量使新MLX引擎成為我本地AI設定中最值得的升級之一。Ollama是一個在本地計算機上下載和執行各種開源大型語言模型的平臺。