AI News HubLIVE
站内改写2 分鐘閱讀

Ollama在Apple Silicon上透過MLX實現最高效能

Ollama的MLX引擎更新後,在Apple Silicon上實現了最高效能。透過更充分利用蘋果統一記憶體和Metal支援的MLX框架,模型輸出質量更高,響應更快,記憶體佔用更低。新支援NVFP4格式,輸出速度提升高達20%,並引入快照系統最佳化代理工作流。

Ollama於2026年6月11日宣佈,其MLX引擎經過更新,在Apple Silicon上實現了迄今最高的效能。這次更新更加深入地利用了蘋果的統一記憶體和基於Metal的MLX框架,使得模型輸出質量更高,響應速度更快,同時記憶體佔用更少。

(影片標籤:在MacBook Pro M5 Max上使用Gemma 4 12B執行編碼代理。Ollama改進的MLX引擎提供了更高質量的結果、更高的輸出速度,以及更快的首token時間,支援思考和多個子代理。)

NVFP4帶來更高質量的輸出

Ollama的MLX引擎現已支援NVIDIA的模型最佳化NVFP4格式,相比其他4位量化格式,在保持最先進效能的同時,提供了更高質量的輸出。此外,原本為資料中心部署最佳化的模型現在可以匯入並在Ollama的MLX引擎上執行,實現了資料中心與桌面之間的可移植性。

NVFP4更緊密地跟蹤模型權重的區域性動態範圍,從而減少了量化造成的損失。透過比較Gemma 4 12B模型在q4_K_M(Ollama常用4位量化格式)、NVFP4和未量化的bf16權重之間的困惑度差異,模型最佳化的NVFP4大致將質量損失減半,同時保持了效能。

(困惑度圖表:Gemma 4 12B——越低越好。NVFP4將4位量化的質量損失大致減半,相比未量化的BF16。)

更快的輸出效能

得益於新的最佳化措施,Ollama的MLX引擎輸出速度提升高達20%。多項操作透過MLX的即時編譯功能融合為單個Metal核心,同時Ollama對GPU取樣的實現進行了重構,使其執行更高效。

(輸出速度圖表:token/s——越高越好。在更新後的引擎上,NVFP4比q4_K_M快約20%。資料基於提供8300個token輸入提示時的10次執行平均輸出速度。)

代理工作流響應更迅速

代理工作負載主要由提示處理構成。每次工具呼叫都是一個新請求,每次請求都會重新傳送整個對話歷史:系統提示、工具定義以及之前讀取的每個檔案。在一個單一任務中,模型最終會多次處理相同的上下文。字首快取可以避免重複工作,只要每個請求從上一個請求停止的地方繼續。

然而,在真實的代理會話中,這種情況並不會持續太久。Ollama的新快照系統在對話的關鍵點儲存模型狀態,採用了與Ollama雲端處理代理工作負載相同的方法:

  • 多代理:代理將任務交給子代理並稍後重新接管,或同時執行兩個會話。每個會話從其自己的儲存狀態恢復,它們共同的部分(通常是數萬個token的系統提示、工具定義和攝入檔案)只處理一次。
  • 思考模型:推理token生成後從對話歷史中丟棄,因此下一個請求永遠無法匹配引擎剛剛構建的狀態。每次輪次通常需要重新處理整個對話。在響應開始前立即拍攝的快照為下一次輪次提供了可恢復的位置。
  • 分支和重試:不同的後續問題或重新生成的響應會從快取對話中分叉而不是擴充套件。由於快照存在於對話分叉的位置,只有新方向需要處理。

大多數新模型使這變得更困難。滑動視窗注意力和迴圈層攜帶無法回退的狀態。一旦模型經過對話中的某個點,除非當時儲存了狀態,否則無法恢復該點。Ollama在對話可能返回的點儲存狀態:分叉處、長提示的間隔處,以及每個響應之前。保持快照的選擇性和增量性為模型留出了更多記憶體。

開始使用

要在Ollama的MLX引擎上執行模型,請下載最新版本的Ollama,然後執行模型:

ollama run gemma4:12b-mlx

在編碼代理中使用時,請呼叫ollama launch:

ollama launch pi --model gemma4:12b-mlx