AI News HubLIVE
站内改写2 分钟阅读

使用MLX在Mac上运行本地自主AI(WWDC 2026)[视频]

本视频展示了如何利用MLX框架在Mac上完全本地化运行自主AI代理,无需云端或API密钥。涵盖了从基础栈到性能优化的四大层次,包括借助M5神经加速器实现4倍提示处理加速、连续批处理支持并发以及多Mac分布式推理。通过OpenCode等实际演示,展示了代理在本地构建SwiftUI应用和修复Xcode错误的完整流程。

来源Hacker News AI作者: sebiw

在WWDC 2026上,Apple的MLX团队展示了如何利用MLX框架在Mac上构建和运行完全本地化的自主AI代理。该技术无需依赖云服务或API密钥,所有计算均在用户设备上完成,从而确保数据隐私、低延迟和离线可用性。视频首先介绍了自主代理的核心循环:用户与代理交互,代理调用语言模型进行决策,然后通过工具执行命令、读取文件或访问API,并观察结果反馈给模型以决定下一步行动。整个过程在本地设备上循环进行,直到任务完成。MLX团队展示了实际案例:一个运行在本地Mac上的代理,通过调用GitHub CLI获取最近的拉取请求,总结变更并标记需要关注的项目,所有操作均实时执行。

代理的本地化运行依赖于四层技术栈:底层为MLX框架,负责底层计算、Metal加速和内存管理;第二层为MLX-LM,提供加载、运行、量化和微调语言模型的能力;第三层为MLX-LM服务器,一个兼容OpenAI的HTTP服务器,支持结构化工具调用和推理模型;顶层为代理框架,如Xcode、OpenCode等,通过标准API与服务器通信。该栈已被Ollama、LM Studio等流行工具广泛采用。设置本地代理仅需三步:安装MLX-LM(一个pip命令),启动服务器(指定支持工具调用的模型),以及将代理指向本地服务器地址。

性能优化方面,视频重点介绍了三个挑战。首先是提示处理:自主工作流程中,模型需反复处理大量工具输出结果。M5芯片的神经加速器专为此优化,使矩阵乘法速度相比M4提升4倍,从而显著缩短提示处理时间。用户无需任何代码更改即可自动受益。其次是并发:代理常并行生成多个子代理处理不同任务。MLX-LM服务器通过连续批处理动态合并请求,避免排队等待,确保全体子代理流畅运行。最后是模型大小:对于参数规模极大的模型(如1.6万亿参数的DeepSeek),单台Mac内存可能不足。MLX的分布式推理支持通过Thunderbolt或以太网连接多台Mac,自动分片加载模型,并可并行处理提示。macOS 26.2起支持Thunderbolt RDMA,四节点分布式推理速度提升高达3倍。

实际演示部分展示了代理的编码能力:从空白Xcode项目开始,代理在2分钟内自主构建了一个功能完整的iPad绘图应用,包括代码编写、构建和错误修复。随后通过集成到Xcode,代理快速定位并修复了故意引入的bug。所有操作均在本地完成,验证了自主AI在开发环境中的实用价值。