AI News HubLIVE
站内改写2 分鐘閱讀

Ollama在Apple Silicon上通過MLX實現最高性能

Ollama的MLX引擎更新後,在Apple Silicon上實現了最高性能。通過更充分利用蘋果統一內存和Metal支持的MLX框架,模型輸出質量更高,響應更快,內存佔用更低。新支持NVFP4格式,輸出速度提升高達20%,並引入快照系統優化代理工作流。

Ollama於2026年6月11日宣佈,其MLX引擎經過更新,在Apple Silicon上實現了迄今最高的性能。這次更新更加深入地利用了蘋果的統一內存和基於Metal的MLX框架,使得模型輸出質量更高,響應速度更快,同時內存佔用更少。

(視頻標籤:在MacBook Pro M5 Max上使用Gemma 4 12B運行編碼代理。Ollama改進的MLX引擎提供了更高質量的結果、更高的輸出速度,以及更快的首token時間,支持思考和多個子代理。)

NVFP4帶來更高質量的輸出

Ollama的MLX引擎現已支持NVIDIA的模型優化NVFP4格式,相比其他4位量化格式,在保持最先進性能的同時,提供了更高質量的輸出。此外,原本為數據中心部署優化的模型現在可以導入並在Ollama的MLX引擎上運行,實現了數據中心與桌面之間的可移植性。

NVFP4更緊密地跟蹤模型權重的局部動態範圍,從而減少了量化造成的損失。通過比較Gemma 4 12B模型在q4_K_M(Ollama常用4位量化格式)、NVFP4和未量化的bf16權重之間的困惑度差異,模型優化的NVFP4大致將質量損失減半,同時保持了性能。

(困惑度圖表:Gemma 4 12B——越低越好。NVFP4將4位量化的質量損失大致減半,相比未量化的BF16。)

更快的輸出性能

得益於新的優化措施,Ollama的MLX引擎輸出速度提升高達20%。多項操作通過MLX的即時編譯功能融合為單個Metal內核,同時Ollama對GPU採樣的實現進行了重構,使其運行更高效。

(輸出速度圖表:token/s——越高越好。在更新後的引擎上,NVFP4比q4_K_M快約20%。數據基於提供8300個token輸入提示時的10次運行平均輸出速度。)

代理工作流響應更迅速

代理工作負載主要由提示處理構成。每次工具調用都是一個新請求,每次請求都會重新發送整個對話歷史:系統提示、工具定義以及之前讀取的每個文件。在一個單一任務中,模型最終會多次處理相同的上下文。前綴緩存可以避免重複工作,只要每個請求從上一個請求停止的地方繼續。

然而,在真實的代理會話中,這種情況並不會持續太久。Ollama的新快照系統在對話的關鍵點保存模型狀態,採用了與Ollama雲端處理代理工作負載相同的方法:

  • 多代理:代理將任務交給子代理並稍後重新接管,或同時運行兩個會話。每個會話從其自己的保存狀態恢復,它們共同的部分(通常是數萬個token的系統提示、工具定義和攝入文件)只處理一次。
  • 思考模型:推理token生成後從對話歷史中丟棄,因此下一個請求永遠無法匹配引擎剛剛構建的狀態。每次輪次通常需要重新處理整個對話。在響應開始前立即拍攝的快照為下一次輪次提供了可恢復的位置。
  • 分支和重試:不同的後續問題或重新生成的響應會從緩存對話中分叉而不是擴展。由於快照存在於對話分叉的位置,只有新方向需要處理。

大多數新模型使這變得更困難。滑動窗口注意力和循環層攜帶無法回退的狀態。一旦模型經過對話中的某個點,除非當時保存了狀態,否則無法恢復該點。Ollama在對話可能返回的點保存狀態:分叉處、長提示的間隔處,以及每個響應之前。保持快照的選擇性和增量性為模型留出了更多內存。

開始使用

要在Ollama的MLX引擎上運行模型,請下載最新版本的Ollama,然後運行模型:

ollama run gemma4:12b-mlx

在編碼代理中使用時,請調用ollama launch:

ollama launch pi --model gemma4:12b-mlx