AI News HubLIVE
站内改写2 分钟阅读

介绍苹果第三代基础模型

苹果发布了第三代基础模型系列,包含五个模型,与谷歌合作开发,涵盖设备端和服务器端,强调隐私保护和新架构。这些模型驱动全新Siri和智能工具,在评估中展现出显著质量提升。

苹果公司发布了其第三代基础模型(Apple Foundation Models, AFM),这一系列模型专为Apple Intelligence打造,深度集成于操作系统,并以隐私为核心。该系列包括五个模型,其中两个为设备端模型,三个为服务器端模型,与谷歌合作开发。

设备端模型方面,AFM 3 Core是30亿参数的密集模型,相比前代质量大幅提升。而AFM 3 Core Advanced是苹果最强大的设备端模型,拥有200亿参数,采用稀疏架构,每次推理仅激活10亿到40亿参数。该模型基于苹果的最新研究,支持原生多模态功能,如富有表现力的语音和高精度听写,专为苹果最强芯片优化。

AFM 3 Core Advanced的核心创新在于其稀疏激活架构,基于指令遵循剪枝(IFP)技术。不同于传统模型将所有权重加载到DRAM,该模型将大部分参数存储在闪存中,通过按提示路由选择专家,并在生成过程中定期重新选择,从而大幅降低内存占用。这种设计还带来了推理时的弹性,可根据任务难度动态调整激活参数数量,实现规模远超传统DRAM限制的模型。

服务器端模型包括AFM 3 Cloud、ADM 3 Cloud(图像生成与编辑)和AFM 3 Cloud Pro。AFM 3 Cloud是服务器端主力模型,基于并行轨迹混合专家(PT-MoE)架构,在多模态推理和上下文理解方面显著提升。ADM 3 Cloud支持高质量图像创建、编辑和Genmoji,具有强可控性和参数效率。AFM 3 Cloud Pro是最强大的服务器模型,用于代理工具使用和复杂推理,与谷歌和NVIDIA合作,将Private Cloud Compute扩展到Google Cloud中的NVIDIA GPU。

训练数据方面,苹果使用公开信息、许可数据、开源数据、研究数据和合成数据,不使用用户私人数据,并尊重网络发布者的退出选择。所有模型经过预训练和后训练,包括监督微调和多阶段强化学习,并针对目标硬件(Apple Silicon或NVIDIA GPU)进行量化感知训练优化。

评估结果显示,第三代模型在多个维度上大幅超越前代。在文本能力上,AFM 3 Core的用户偏好率达45.6%(前代23.3%),AFM 3 Cloud达64.7%(前代8.7%)。在图像理解方面,AFM 3 Core和AFM 3 Cloud的偏好率分别为61%和37.8%。AFM 3 Cloud Pro在数学任务上比AFM 3 Cloud提升14%。此外,AFM 3 Core Advanced在文本转语音质量上达到4.15的MOS评分,比前代提升0.28。这些模型将为用户带来更智能、更自然的Apple Intelligence体验。