2026-06-11站内改写2 分鐘閱讀更新: 2026-06-12

Ollama在Apple Silicon上通過MLX實現最高性能

Ollama的MLX引擎更新後，在Apple Silicon上實現了最高性能。通過更充分利用蘋果統一內存和Metal支持的MLX框架，模型輸出質量更高，響應更快，內存佔用更低。新支持NVFP4格式，輸出速度提升高達20%，並引入快照系統優化代理工作流。

Ollama於2026年6月11日宣佈，其MLX引擎經過更新，在Apple Silicon上實現了迄今最高的性能。這次更新更加深入地利用了蘋果的統一內存和基於Metal的MLX框架，使得模型輸出質量更高，響應速度更快，同時內存佔用更少。

（視頻標籤：在MacBook Pro M5 Max上使用Gemma 4 12B運行編碼代理。Ollama改進的MLX引擎提供了更高質量的結果、更高的輸出速度，以及更快的首token時間，支持思考和多個子代理。）

NVFP4帶來更高質量的輸出

Ollama的MLX引擎現已支持NVIDIA的模型優化NVFP4格式，相比其他4位量化格式，在保持最先進性能的同時，提供了更高質量的輸出。此外，原本為數據中心部署優化的模型現在可以導入並在Ollama的MLX引擎上運行，實現了數據中心與桌面之間的可移植性。

NVFP4更緊密地跟蹤模型權重的局部動態範圍，從而減少了量化造成的損失。通過比較Gemma 4 12B模型在q4_K_M（Ollama常用4位量化格式）、NVFP4和未量化的bf16權重之間的困惑度差異，模型優化的NVFP4大致將質量損失減半，同時保持了性能。

（困惑度圖表：Gemma 4 12B——越低越好。NVFP4將4位量化的質量損失大致減半，相比未量化的BF16。）

更快的輸出性能

得益於新的優化措施，Ollama的MLX引擎輸出速度提升高達20%。多項操作通過MLX的即時編譯功能融合為單個Metal內核，同時Ollama對GPU採樣的實現進行了重構，使其運行更高效。

（輸出速度圖表：token/s——越高越好。在更新後的引擎上，NVFP4比q4_K_M快約20%。數據基於提供8300個token輸入提示時的10次運行平均輸出速度。）

代理工作流響應更迅速

代理工作負載主要由提示處理構成。每次工具調用都是一個新請求，每次請求都會重新發送整個對話歷史：系統提示、工具定義以及之前讀取的每個文件。在一個單一任務中，模型最終會多次處理相同的上下文。前綴緩存可以避免重複工作，只要每個請求從上一個請求停止的地方繼續。

然而，在真實的代理會話中，這種情況並不會持續太久。Ollama的新快照系統在對話的關鍵點保存模型狀態，採用了與Ollama雲端處理代理工作負載相同的方法：

多代理：代理將任務交給子代理並稍後重新接管，或同時運行兩個會話。每個會話從其自己的保存狀態恢復，它們共同的部分（通常是數萬個token的系統提示、工具定義和攝入文件）只處理一次。
思考模型：推理token生成後從對話歷史中丟棄，因此下一個請求永遠無法匹配引擎剛剛構建的狀態。每次輪次通常需要重新處理整個對話。在響應開始前立即拍攝的快照為下一次輪次提供了可恢復的位置。
分支和重試：不同的後續問題或重新生成的響應會從緩存對話中分叉而不是擴展。由於快照存在於對話分叉的位置，只有新方向需要處理。

大多數新模型使這變得更困難。滑動窗口注意力和循環層攜帶無法回退的狀態。一旦模型經過對話中的某個點，除非當時保存了狀態，否則無法恢復該點。Ollama在對話可能返回的點保存狀態：分叉處、長提示的間隔處，以及每個響應之前。保持快照的選擇性和增量性為模型留出了更多內存。

開始使用

要在Ollama的MLX引擎上運行模型，請下載最新版本的Ollama，然後運行模型：

ollama run gemma4:12b-mlx

在編碼代理中使用時，請調用ollama launch：

ollama launch pi --model gemma4:12b-mlx