2026-06-30 16:23 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 16:28 UTC+8

Ollama新MLX引擎：Mac上本地LLM效能翻倍，體驗大幅提升

Ollama推出的新MLX引擎大幅提升了Mac上本地LLM的效能和輸出質量，尤其對編碼助手等代理工作流有顯著最佳化。

來源Hacker News AI作者: taintech

我一直使用Ollama在Mac上執行本地LLM，效果不錯，但Mac的整體效能會受到影響，因為本地LLM資源消耗大。我使用的是MacBook Air M5，16GB記憶體，雖然不算最強，但執行少於70億引數的模型已經足夠。

升級到Ollama的新MLX引擎後，情況徹底改變。效能大幅提升，一切響應更迅速，推理速度幾乎翻倍。如果你已經在Mac上透過Ollama執行本地LLM，這將是自Apple Silicon成為重要推理平臺以來最大的升級之一。最新的MLX引擎改變了模型表示、記憶體使用方式以及代理工作流的快取策略，對Claude Code、OpenClaw、Aider等多代理設定也有巨大影響。

MLX引擎終於更好地發揮了Apple Silicon的優勢。本地LLM使用者大多知道Apple Silicon在相對適中的硬體下表現出色。我的MacBook Air M5 16GB處理小模型沒有太大問題，但總是存在權衡——執行本地模型常會拖慢系統其他部分。Ollama的新MLX引擎透過更依賴Apple的MLX框架和統一記憶體架構改變了這一點。Apple Silicon允許CPU和GPU共享同一記憶體池，而不是分開處理，更新後的引擎更充分地利用了這種設計，減少了推理過程中的不必要記憶體移動。

改進不僅限於記憶體管理。Ollama現在透過MLX的即時編譯器將多個GPU操作合併為更大的Metal核心，降低了推理開銷。引擎還改進了GPU支援的取樣，使token生成速度大大加快。Ollama聲稱更新後的引擎比之前的Q4_K_M實現提供約20%的輸出速度提升，這與我的日常使用體驗相符。我的工作流主要是程式設計問題、生成指令碼或測試自動化想法，這些短請求現在每個都感覺更流暢。

更小模型現在產生更好的響應。效能改進通常最受關注，但我認為質量改進同樣重要。Ollama更新的MLX引擎現在支援NVIDIA的模型最佳化NVFP4量化格式。量化減少了執行模型所需的記憶體，但也會從原始權重中移除一些資訊。NVFP4顯著減少了這種犧牲。根據Ollama對Gemma 4 12B的測量，新格式在保持類似記憶體需求的同時將質量損失減少約一半。基準測試顯示困惑度低於Q4_K_M，表明模型行為更接近原始BF16版本。

我的Mac無法舒適執行超大模型，所以我主要使用較小的模型。更好的量化使小模型無需額外硬體就能產生更強結果。這對使用MacBook Air或其他有限記憶體Apple Silicon系統的使用者來說是一個有意義的升級。我現在注意到生成的程式碼更一致地遵循指令，後續提示需要的修正更少。在較長對話中，回覆也更連貫，減少了重寫提示的時間。

編碼代理受益更多。最讓我驚訝的功能與原始推理速度無關。Ollama還重新設計了MLX引擎在代理工作流中處理快取模型狀態的方式。這很重要，因為編碼助手不斷向模型重新傳送大量上下文。每個工具呼叫都包括系統提示、工具定義、之前的對話歷史和最近載入的檔案。傳統的字首快取只在每個請求直接從前一個請求繼續時才有效。現代編碼代理很少這樣，因為它們經常分支到子代理、重試失敗請求或從可見對話中移除推理token。這些變化通常迫使模型重複處理相同上下文，儘管大部分從未改變。

Ollama透過新的快照系統解決了這個問題。引擎在對話的關鍵點儲存可複用的模型狀態，而不是完全依賴字首快取。獨立的代理會話可以從這些儲存的狀態恢復，而不是從頭開始重建。思維模型也受益，因為在推理token從對話歷史中消失之前，快照保留了有用的狀態。

現在Ollama好多了。這次更新改進了你使用本地LLM的一切，無論是聊天還是用作編碼助手。我的本地工作流感覺更快，因為重複的工具呼叫不再花費大量時間重建上下文。更快的響應時間和更好的輸出質量使新MLX引擎成為我本地AI設定中最值得的升級之一。Ollama是一個在本地計算機上下載和執行各種開源大型語言模型的平臺。