2026-06-30 16:23 UTC+8站内改写2 分钟阅读更新: 2026-06-30 16:28 UTC+8

Ollama新MLX引擎：Mac上本地LLM性能翻倍，体验大幅提升

Ollama推出的新MLX引擎大幅提升了Mac上本地LLM的性能和输出质量，尤其对编码助手等代理工作流有显著优化。

来源Hacker News AI作者: taintech

我一直使用Ollama在Mac上运行本地LLM，效果不错，但Mac的整体性能会受到影响，因为本地LLM资源消耗大。我使用的是MacBook Air M5，16GB内存，虽然不算最强，但运行少于70亿参数的模型已经足够。

升级到Ollama的新MLX引擎后，情况彻底改变。性能大幅提升，一切响应更迅速，推理速度几乎翻倍。如果你已经在Mac上通过Ollama运行本地LLM，这将是自Apple Silicon成为重要推理平台以来最大的升级之一。最新的MLX引擎改变了模型表示、内存使用方式以及代理工作流的缓存策略，对Claude Code、OpenClaw、Aider等多代理设置也有巨大影响。

MLX引擎终于更好地发挥了Apple Silicon的优势。本地LLM用户大多知道Apple Silicon在相对适中的硬件下表现出色。我的MacBook Air M5 16GB处理小模型没有太大问题，但总是存在权衡——运行本地模型常会拖慢系统其他部分。Ollama的新MLX引擎通过更依赖Apple的MLX框架和统一内存架构改变了这一点。Apple Silicon允许CPU和GPU共享同一内存池，而不是分开处理，更新后的引擎更充分地利用了这种设计，减少了推理过程中的不必要内存移动。

改进不仅限于内存管理。Ollama现在通过MLX的即时编译器将多个GPU操作合并为更大的Metal内核，降低了推理开销。引擎还改进了GPU支持的采样，使token生成速度大大加快。Ollama声称更新后的引擎比之前的Q4_K_M实现提供约20%的输出速度提升，这与我的日常使用体验相符。我的工作流主要是编程问题、生成脚本或测试自动化想法，这些短请求现在每个都感觉更流畅。

更小模型现在产生更好的响应。性能改进通常最受关注，但我认为质量改进同样重要。Ollama更新的MLX引擎现在支持NVIDIA的模型优化NVFP4量化格式。量化减少了运行模型所需的内存，但也会从原始权重中移除一些信息。NVFP4显著减少了这种牺牲。根据Ollama对Gemma 4 12B的测量，新格式在保持类似内存需求的同时将质量损失减少约一半。基准测试显示困惑度低于Q4_K_M，表明模型行为更接近原始BF16版本。

我的Mac无法舒适运行超大模型，所以我主要使用较小的模型。更好的量化使小模型无需额外硬件就能产生更强结果。这对使用MacBook Air或其他有限内存Apple Silicon系统的用户来说是一个有意义的升级。我现在注意到生成的代码更一致地遵循指令，后续提示需要的修正更少。在较长对话中，回复也更连贯，减少了重写提示的时间。

编码代理受益更多。最让我惊讶的功能与原始推理速度无关。Ollama还重新设计了MLX引擎在代理工作流中处理缓存模型状态的方式。这很重要，因为编码助手不断向模型重新发送大量上下文。每个工具调用都包括系统提示、工具定义、之前的对话历史和最近加载的文件。传统的前缀缓存只在每个请求直接从前一个请求继续时才有效。现代编码代理很少这样，因为它们经常分支到子代理、重试失败请求或从可见对话中移除推理token。这些变化通常迫使模型重复处理相同上下文，尽管大部分从未改变。

Ollama通过新的快照系统解决了这个问题。引擎在对话的关键点存储可复用的模型状态，而不是完全依赖前缀缓存。独立的代理会话可以从这些保存的状态恢复，而不是从头开始重建。思维模型也受益，因为在推理token从对话历史中消失之前，快照保留了有用的状态。

现在Ollama好多了。这次更新改进了你使用本地LLM的一切，无论是聊天还是用作编码助手。我的本地工作流感觉更快，因为重复的工具调用不再花费大量时间重建上下文。更快的响应时间和更好的输出质量使新MLX引擎成为我本地AI设置中最值得的升级之一。Ollama是一个在本地计算机上下载和运行各种开源大型语言模型的平台。