2026-06-12站内改写2 分钟阅读更新: 2026-06-12

使用MLX在Mac上运行本地自主AI（WWDC 2026）[视频]

本视频展示了如何利用MLX框架在Mac上完全本地化运行自主AI代理，无需云端或API密钥。涵盖了从基础栈到性能优化的四大层次，包括借助M5神经加速器实现4倍提示处理加速、连续批处理支持并发以及多Mac分布式推理。通过OpenCode等实际演示，展示了代理在本地构建SwiftUI应用和修复Xcode错误的完整流程。

来源Hacker News AI作者: sebiw

在WWDC 2026上，Apple的MLX团队展示了如何利用MLX框架在Mac上构建和运行完全本地化的自主AI代理。该技术无需依赖云服务或API密钥，所有计算均在用户设备上完成，从而确保数据隐私、低延迟和离线可用性。视频首先介绍了自主代理的核心循环：用户与代理交互，代理调用语言模型进行决策，然后通过工具执行命令、读取文件或访问API，并观察结果反馈给模型以决定下一步行动。整个过程在本地设备上循环进行，直到任务完成。MLX团队展示了实际案例：一个运行在本地Mac上的代理，通过调用GitHub CLI获取最近的拉取请求，总结变更并标记需要关注的项目，所有操作均实时执行。

代理的本地化运行依赖于四层技术栈：底层为MLX框架，负责底层计算、Metal加速和内存管理；第二层为MLX-LM，提供加载、运行、量化和微调语言模型的能力；第三层为MLX-LM服务器，一个兼容OpenAI的HTTP服务器，支持结构化工具调用和推理模型；顶层为代理框架，如Xcode、OpenCode等，通过标准API与服务器通信。该栈已被Ollama、LM Studio等流行工具广泛采用。设置本地代理仅需三步：安装MLX-LM（一个pip命令），启动服务器（指定支持工具调用的模型），以及将代理指向本地服务器地址。

性能优化方面，视频重点介绍了三个挑战。首先是提示处理：自主工作流程中，模型需反复处理大量工具输出结果。M5芯片的神经加速器专为此优化，使矩阵乘法速度相比M4提升4倍，从而显著缩短提示处理时间。用户无需任何代码更改即可自动受益。其次是并发：代理常并行生成多个子代理处理不同任务。MLX-LM服务器通过连续批处理动态合并请求，避免排队等待，确保全体子代理流畅运行。最后是模型大小：对于参数规模极大的模型（如1.6万亿参数的DeepSeek），单台Mac内存可能不足。MLX的分布式推理支持通过Thunderbolt或以太网连接多台Mac，自动分片加载模型，并可并行处理提示。macOS 26.2起支持Thunderbolt RDMA，四节点分布式推理速度提升高达3倍。

实际演示部分展示了代理的编码能力：从空白Xcode项目开始，代理在2分钟内自主构建了一个功能完整的iPad绘图应用，包括代码编写、构建和错误修复。随后通过集成到Xcode，代理快速定位并修复了故意引入的bug。所有操作均在本地完成，验证了自主AI在开发环境中的实用价值。