Ollama在Apple Silicon上透過MLX實現最高效能
Ollama的MLX引擎更新後,在Apple Silicon上實現了最高效能。透過更充分利用蘋果統一記憶體和Metal支援的MLX框架,模型輸出質量更高,響應更快,記憶體佔用更低。新支援NVFP4格式,輸出速度提升高達20%,並引入快照系統最佳化代理工作流。
- Ollama MLX引擎更新,支援NVFP4格式,量化質量損失減半。
- 輸出速度提升高達20%,得益於融合的Metal核心和最佳化取樣。
Official local AI model runtime blog; confirm reuse terms before full body display.
Ollama的MLX引擎更新後,在Apple Silicon上實現了最高效能。透過更充分利用蘋果統一記憶體和Metal支援的MLX框架,模型輸出質量更高,響應更快,記憶體佔用更低。新支援NVFP4格式,輸出速度提升高達20%,並引入快照系統最佳化代理工作流。
Ollama 0.30 現已釋出,透過 llama.cpp 帶來更優效能和 GGUF 模型相容性,增強了 Apple Silicon 上的 MLX 引擎,支援更多硬體和模型。
NVIDIA Nemotron 3 Ultra 是一款5500億總引數(550億活躍引數)的開放模型,專為長時間執行的代理驅動工作流設計,支援百萬token上下文,並採用NVFP4最佳化,在代理任務上具有領先的準確性和成本效益。
OpenJarvis 是一個開源框架,用於構建執行在本地硬體上的個人 AI 代理。由斯坦福大學 Hazy Research 和 Scaling Intelligence 實驗室開發,v1.0 版本現已整合 Ollama,實現本地優先、雲端可選,並跟蹤能耗、成本和延遲。
Ollama 宣佈推出基於 Apple MLX 框架的預覽版,針對 Apple Silicon 效能大幅最佳化,支援 NVFP4 精度和智慧快取,顯著提升預填和解碼速度。
透過Ollama 0.17,只需一條命令即可在本地硬體上部署OpenClaw個人AI助手,支援管理郵件、日曆和透過訊息應用執行任務。本文詳細介紹了安裝步驟、模型選擇和安全注意事項。
Ollama 現已支援在 Claude Code 中使用子代理和網路搜尋功能,無需額外配置。子代理可並行執行檔案搜尋、程式碼探索和研究等任務,而網路搜尋則內建於 Anthropic 相容層,為模型提供即時資訊。
OpenClaw是一款個人AI助手,能將你的訊息應用連線到本地AI程式設計代理,所有操作都在你自己的裝置上執行,確保隱私安全。它支援WhatsApp、Telegram、Slack、Discord、iMessage等服務,並透過Ollama整合本地或雲端模型,推薦使用至少64k上下文長度的模型。
Ollama 推出新命令 `ollama launch`,可自動配置並執行 Claude Code、OpenCode、Codex 等編碼工具,支援本地或雲端模型,無需手動設定環境變數或配置檔案。
Ollama v0.14.0 及以上版本現相容 Anthropic Messages API,使 Claude Code 等工具能與開源模型配合使用。使用者可在本地或透過 ollama.com 連線雲端模型執行。
Ollama宣佈支援OpenAI的Codex CLI,允許使用者透過本地或雲端開源模型執行Codex,實現程式碼讀取、修改和執行。
Ollama 與 OpenAI 和 ROOST 合作,推出基於 Apache 2.0 許可的 gpt-oss-safeguard 推理模型,用於安全分類任務。模型提供 20B 和 120B 兩種引數規模,支援自定義安全策略、可解釋推理過程以及可配置的推理努力,能夠靈活應用於內容過濾、標註等場景。
MiniMax M2 現已透過 Ollama 雲平臺提供。該模型擁有 100 億啟用引數(總計 2300 億),在通用智慧、程式設計和智慧體任務上表現出色,在開源模型中綜合評分排名第一。文章還介紹了在 VS Code、Zed 和 Droid 等工具中的使用方法。