2026-06-09站内改写4 分钟阅读更新: 2026-06-09

苹果在WWDC 2026重建其设备端AI堆栈

苹果在WWDC 2026上未发布新芯片，而是彻底重建了设备端AI运行方式，包括新的推理框架Core AI、模型格式.aimodel、新一代设备端模型AFM 3，以及更明确的云协作策略。Core AI取代Core ML进行神经网络处理，新GPU集成了神经加速器，矩阵乘法速度提升4-8倍。苹果的旗舰云模型运行在谷歌云的NVIDIA GPU上，这一合作引人注目。

来源Hacker News AI作者: ABS

WWDC 2026并未带来新的芯片，但苹果彻底重建了其设备端AI的运行方式。这次发布的核心是新的推理框架Core AI、新的模型格式.aimodel、新一代设备端模型AFM 3，以及一种明显不同的云策略。虽然消费者特性是头条，但开发者文档、会议代码和一篇机器学习研究帖子揭示了更清晰的路线图，以及一些真正令人意外的细节。

重大变化：Core AI取代Core ML处理神经网络

十年来，Core ML一直是“在iPhone上运行模型”的答案。在WWDC 2026上，苹果推出了Core AI，并明确表示这是交接而非新增。Core AI的文档将旧案例送回Core ML：“如果你的应用使用除神经网络以外的模型类型，如决策树或表格特征工程，请参阅Core ML。”而Core ML的文档则指向新框架：“如果你的应用集成使用最新架构和推理技术的AI模型，请参阅Core AI。”合在一起，这构成了一次拆分：Core ML缩小到传统的非神经网络机器学习，而神经网络和Transformer则转移至Core AI。苹果将Core AI描述为产品本身的引擎：“Core AI允许你的应用在CPU、GPU和神经引擎上使用最新的模型架构和推理技术。”工具链中的微妙迹象是新的Core AI调试仪表盘不支持Core ML框架。Core ML并未弃用，但其重心和工具投入已经转移。

新格式：.aimodel包

Core AI附带新的磁盘格式.aimodel，奇怪的是它不是一个文件而是一个目录。苹果的coreai-models存储库将其视为目录，Python导出器使用仅目录调用来删除旧格式，Swift运行时将其解析为“.aimodel目录”。内部是纯JSON的metadata.json文件，记录模型类型、分词器、词汇量、上下文长度、压缩预设和模型文件。权重有效负载由不透明的框架调用写入，其字节布局未公开。因此格式是半开放的：可读的清单包裹着一个未记录的二进制块。模型使用新的Python工具链准备：Core AI优化用于压缩，Core AI PyTorch扩展用于从PyTorch直接导出。压缩选项比GGUF世界更丰富：2、4、8位整数权重；FP8和FP4等浮点微格式；块缩放MXFP8；以及1至8位调色板量化。一位论坛读者指出，苹果还在推动激活量化，如w4a8/w4a16。考虑到苹果的安装基数，其支持的格式可能最终影响子100B模型的发布方式。

硬件信号：矩阵乘法移至GPU

没有新芯片，但WWDC 2026明确了M5和A19 GPU的故事，这是本周最清晰的硬件信号。苹果表示：“神经加速器是M5中专用于矩阵乘法的专用硬件。它们内置于每个着色器核心中，与其他GPU管线并列。每个着色器核心都有自己的神经加速器。”苹果的数据：矩阵乘法速度提升4至8倍，LLM首词延迟（计算密集的预填充阶段）提升高达4倍，令牌生成（内存密集的解码阶段）提升高达25%。这实际上是本地推理领域熟悉的屋顶线模型，现在苹果自己也明确表述了：“低算术强度的GEMM是内存密集型的，高算术强度的GEMM是计算密集型的，构成了内核性能的屋顶线模型。”预填充与解码的拆分现在成了苹果自己的语言。另一个代码中的迹象：coreai-models源代码根据图结构推断模型的首选计算单元：分块、静态形状的图偏好神经引擎；动态形状的图偏好GPU。这悄然形式化了苹果多年来暗示的分叉——神经引擎用于静态、经典形状的工作，而GPU（每个着色器核心内嵌神经加速器）用于Transformer矩阵乘法。值得强调的是，这是导出时编码的模型首选目标，并非实际执行的保证。

模型：AFM 3与带宽墙

苹果还推出了第三代基础模型。设备端模型包括30亿参数的密集模型（AFM 3 Core）和200亿参数的稀疏混合专家模型（AFM 3 Core Advanced），后者原生多模态，每次激活仅1至4亿参数，并限制在性能最强的苹果硅芯片上。有趣的部分是内存部分，苹果明确描述了约束：“整个模型存储在闪存（NAND）中……NAND到DRAM带宽对于逐令牌交换权重来说太慢。”这是苹果在描述每个本地LLM运行者都会遇到的墙：一个太大而无法常驻的模型，每个令牌移动的字节数需支付代价。他们的答案是混合专家模型，具有高比例始终活跃的“共享专家”和依赖于输入的“路由专家”——保持始终在线的权重在内存中，尽可能少地流式传输剩余部分——并通过量化感知训练压缩其余部分。这提醒我们，苹果也不能免于物理定律，只是在一篇研究帖子中异常坦诚。

边界：设备端、云端和模糊的中间地带

苹果的基础模型现在涵盖从设备端到云端的谱系，而云端部分有一个惊人的形状。苹果与谷歌和NVIDIA合作，将私有云计算扩展到谷歌云中的NVIDIA GPU。苹果性能最强的模型运行在谷歌云的NVIDIA GPU上，由谷歌构建。对于一家设计自家芯片并主打设备端隐私的公司来说，旗舰云模型运行在竞争对手的硬件和竞争对手的云上，是本周最令人惊讶的迹象。最想确认的是切换机制：请求何时在设备上运行，何时转到私有云计算，之后能否分辨？苹果的API公开了显式选择——私有云计算模型选项和专门的PrivateCloudComputeLanguageModel类型。但在Core AI文档、基础模型文档或扩展私有云计算安全帖子中，我找不到任何关于设备端请求何时透明卸载或路由对开发者或用户可见的声明。因此，诚实的版本是：谱系是真实的，云端是谷歌加NVIDIA，而触发机制及其可审计性根本没有公开说明。沉默由你解读。

开发者可见的内容：计时

Core AI附带三个工具——独立调试器应用、Xcode调试仪表盘和Instruments模板——它们确实测量了真实内容。Core AI工具分析CPU、GPU和神经引擎的执行时序，关联Core AI事件与硬件活动。延迟、令牌计数和运行模型的计算单元——在Xcode中，针对你自己的应用的Core AI调用。能量、内存带宽和热状态未出现在Core AI分析文档中。这是一个关于工具报告内容的陈述，但考虑到设备端性能很大程度上由这三个因素决定，这是一个值得注意的空白。

另一条轨道：MLX

并行地，苹果继续投资于MLX作为供高级用户使用的自带权重路径。WWDC 2026增加了跨多台Mac的分布式推理（通过Thunderbolt 5的新JACCL后端）、OpenAI兼容的mlx_lm.server，以及基于此的Mac端Agent功能。值得注意的是，MLX会议没有回溯到Core AI或基础模型——这是一种故意的双轨策略：系统自己的模型运行在Core AI和基础模型上，开放社区模型运行在MLX上。

更广泛的影响

退一步看，路线图清晰可辨：设备端AI现在是一流的平台能力。驱动苹果智能的相同推理引擎现在是一个开发者框架，拥有自己的格式、工具链和分析器。这是一个比功能更大的承诺。堆栈正在碎片化，然后才会整合：Core ML、Core AI和MLX现在共存，开发者们在公告发布数小时内就开始询问使用哪一个以及为什么。苹果交付框架的速度快于解释它们的故事。硬问题是普遍性的：AFM 3的NAND带宽声明和预填充与解码的屋顶线是每个本地推理项目都在面对的相同约束。有趣的是不是苹果解决了它们，而是苹果现在用与我们相同的术语来描述它们。云边界是值得关注的部分。一个本地到云的谱系，其切换机制未记录，云端运行在谷歌和NVIDIA上，这是一个信任和架构问题，将会引起更多关注。