2026-06-30 16:23 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 16:28 UTC+8

Ollama新MLX引擎：Mac上本地LLM性能翻倍，體驗大幅提升

Ollama推出的新MLX引擎大幅提升了Mac上本地LLM的性能和輸出質量，尤其對編碼助手等代理工作流有顯著優化。

來源Hacker News AI作者: taintech

我一直使用Ollama在Mac上運行本地LLM，效果不錯，但Mac的整體性能會受到影響，因為本地LLM資源消耗大。我使用的是MacBook Air M5，16GB內存，雖然不算最強，但運行少於70億參數的模型已經足夠。

升級到Ollama的新MLX引擎後，情況徹底改變。性能大幅提升，一切響應更迅速，推理速度幾乎翻倍。如果你已經在Mac上通過Ollama運行本地LLM，這將是自Apple Silicon成為重要推理平台以來最大的升級之一。最新的MLX引擎改變了模型表示、內存使用方式以及代理工作流的緩存策略，對Claude Code、OpenClaw、Aider等多代理設置也有巨大影響。

MLX引擎終於更好地發揮了Apple Silicon的優勢。本地LLM用户大多知道Apple Silicon在相對適中的硬件下表現出色。我的MacBook Air M5 16GB處理小模型沒有太大問題，但總是存在權衡——運行本地模型常會拖慢系統其他部分。Ollama的新MLX引擎通過更依賴Apple的MLX框架和統一內存架構改變了這一點。Apple Silicon允許CPU和GPU共享同一內存池，而不是分開處理，更新後的引擎更充分地利用了這種設計，減少了推理過程中的不必要內存移動。

改進不僅限於內存管理。Ollama現在通過MLX的即時編譯器將多個GPU操作合併為更大的Metal內核，降低了推理開銷。引擎還改進了GPU支持的採樣，使token生成速度大大加快。Ollama聲稱更新後的引擎比之前的Q4_K_M實現提供約20%的輸出速度提升，這與我的日常使用體驗相符。我的工作流主要是編程問題、生成腳本或測試自動化想法，這些短請求現在每個都感覺更流暢。

更小模型現在產生更好的響應。性能改進通常最受關注，但我認為質量改進同樣重要。Ollama更新的MLX引擎現在支持NVIDIA的模型優化NVFP4量化格式。量化減少了運行模型所需的內存，但也會從原始權重中移除一些信息。NVFP4顯著減少了這種犧牲。根據Ollama對Gemma 4 12B的測量，新格式在保持類似內存需求的同時將質量損失減少約一半。基準測試顯示困惑度低於Q4_K_M，表明模型行為更接近原始BF16版本。

我的Mac無法舒適運行超大模型，所以我主要使用較小的模型。更好的量化使小模型無需額外硬件就能產生更強結果。這對使用MacBook Air或其他有限內存Apple Silicon系統的用户來説是一個有意義的升級。我現在注意到生成的代碼更一致地遵循指令，後續提示需要的修正更少。在較長對話中，回覆也更連貫，減少了重寫提示的時間。

編碼代理受益更多。最讓我驚訝的功能與原始推理速度無關。Ollama還重新設計了MLX引擎在代理工作流中處理緩存模型狀態的方式。這很重要，因為編碼助手不斷向模型重新發送大量上下文。每個工具調用都包括系統提示、工具定義、之前的對話歷史和最近加載的文件。傳統的前綴緩存只在每個請求直接從前一個請求繼續時才有效。現代編碼代理很少這樣，因為它們經常分支到子代理、重試失敗請求或從可見對話中移除推理token。這些變化通常迫使模型重複處理相同上下文，儘管大部分從未改變。

Ollama通過新的快照系統解決了這個問題。引擎在對話的關鍵點存儲可複用的模型狀態，而不是完全依賴前綴緩存。獨立的代理會話可以從這些保存的狀態恢復，而不是從頭開始重建。思維模型也受益，因為在推理token從對話歷史中消失之前，快照保留了有用的狀態。

現在Ollama好多了。這次更新改進了你使用本地LLM的一切，無論是聊天還是用作編碼助手。我的本地工作流感覺更快，因為重複的工具調用不再花費大量時間重建上下文。更快的響應時間和更好的輸出質量使新MLX引擎成為我本地AI設置中最值得的升級之一。Ollama是一個在本地計算機上下載和運行各種開源大型語言模型的平台。