Ollama新MLX引擎:Mac上本地LLM性能翻倍,体验大幅提升
Ollama推出的新MLX引擎大幅提升了Mac上本地LLM的性能和输出质量,尤其对编码助手等代理工作流有显著优化。
我一直使用Ollama在Mac上运行本地LLM,效果不错,但Mac的整体性能会受到影响,因为本地LLM资源消耗大。我使用的是MacBook Air M5,16GB内存,虽然不算最强,但运行少于70亿参数的模型已经足够。
升级到Ollama的新MLX引擎后,情况彻底改变。性能大幅提升,一切响应更迅速,推理速度几乎翻倍。如果你已经在Mac上通过Ollama运行本地LLM,这将是自Apple Silicon成为重要推理平台以来最大的升级之一。最新的MLX引擎改变了模型表示、内存使用方式以及代理工作流的缓存策略,对Claude Code、OpenClaw、Aider等多代理设置也有巨大影响。
MLX引擎终于更好地发挥了Apple Silicon的优势。本地LLM用户大多知道Apple Silicon在相对适中的硬件下表现出色。我的MacBook Air M5 16GB处理小模型没有太大问题,但总是存在权衡——运行本地模型常会拖慢系统其他部分。Ollama的新MLX引擎通过更依赖Apple的MLX框架和统一内存架构改变了这一点。Apple Silicon允许CPU和GPU共享同一内存池,而不是分开处理,更新后的引擎更充分地利用了这种设计,减少了推理过程中的不必要内存移动。
改进不仅限于内存管理。Ollama现在通过MLX的即时编译器将多个GPU操作合并为更大的Metal内核,降低了推理开销。引擎还改进了GPU支持的采样,使token生成速度大大加快。Ollama声称更新后的引擎比之前的Q4_K_M实现提供约20%的输出速度提升,这与我的日常使用体验相符。我的工作流主要是编程问题、生成脚本或测试自动化想法,这些短请求现在每个都感觉更流畅。
更小模型现在产生更好的响应。性能改进通常最受关注,但我认为质量改进同样重要。Ollama更新的MLX引擎现在支持NVIDIA的模型优化NVFP4量化格式。量化减少了运行模型所需的内存,但也会从原始权重中移除一些信息。NVFP4显著减少了这种牺牲。根据Ollama对Gemma 4 12B的测量,新格式在保持类似内存需求的同时将质量损失减少约一半。基准测试显示困惑度低于Q4_K_M,表明模型行为更接近原始BF16版本。
我的Mac无法舒适运行超大模型,所以我主要使用较小的模型。更好的量化使小模型无需额外硬件就能产生更强结果。这对使用MacBook Air或其他有限内存Apple Silicon系统的用户来说是一个有意义的升级。我现在注意到生成的代码更一致地遵循指令,后续提示需要的修正更少。在较长对话中,回复也更连贯,减少了重写提示的时间。
编码代理受益更多。最让我惊讶的功能与原始推理速度无关。Ollama还重新设计了MLX引擎在代理工作流中处理缓存模型状态的方式。这很重要,因为编码助手不断向模型重新发送大量上下文。每个工具调用都包括系统提示、工具定义、之前的对话历史和最近加载的文件。传统的前缀缓存只在每个请求直接从前一个请求继续时才有效。现代编码代理很少这样,因为它们经常分支到子代理、重试失败请求或从可见对话中移除推理token。这些变化通常迫使模型重复处理相同上下文,尽管大部分从未改变。
Ollama通过新的快照系统解决了这个问题。引擎在对话的关键点存储可复用的模型状态,而不是完全依赖前缀缓存。独立的代理会话可以从这些保存的状态恢复,而不是从头开始重建。思维模型也受益,因为在推理token从对话历史中消失之前,快照保留了有用的状态。
现在Ollama好多了。这次更新改进了你使用本地LLM的一切,无论是聊天还是用作编码助手。我的本地工作流感觉更快,因为重复的工具调用不再花费大量时间重建上下文。更快的响应时间和更好的输出质量使新MLX引擎成为我本地AI设置中最值得的升级之一。Ollama是一个在本地计算机上下载和运行各种开源大型语言模型的平台。