Apple Machine Learning Research AI 新闻来源

公开文章 27采集文章 27可信度 90刷新频率 30 分钟

健康状态健康来源类型研究原文权限 官方原文最近入库 2026-06-23ID apple-ml-research运行状态 已启用

Official research source; confirm reuse terms before enabling full body display.

最新公开文章

九位法官，两张有效票：相关性错误削弱LLM评估小组

2026-06-23 08:00 UTC+8

研究显示，由多个LLM组成的评估小组因模型间相关错误，实际信息量远低于独立投票的理想状态。9个前沿模型仅相当于约2个独立投票，准确率下降8-22个百分点，最佳单一模型可媲美或超越整个小组。增加法官或改进聚合算法效果有限。

9个LLM评估小组实际只有约2个独立投票的信息量，约75%的名义独立性因模型重复错误而丧失。
小组实际准确率比独立投票理想状态低8-22个百分点，最佳单一模型表现不逊于甚至超越整个小组。

用于从标签分布学习中度量依赖的标注饱和

2026-06-23 08:00 UTC+8

当标注者之间存在分歧时，分歧本身携带有用信号，但捕捉该信号所需的标注者数量取决于评估指标。本文通过在ChaosNLI数据集上微调NLI模型，发现熵相关性需要20-50个标注者才能收敛，而KL散度在约10个标注者时达到饱和。软标签能够捕捉项目特定的分歧信号，而标签平滑无法做到这一点。研究建议标注预算应根据目标评估指标来设定，而非统一规定。

在标签分布上微调NLI模型揭示了度量依赖的饱和现象。
熵相关性需要20-50个标注者收敛，KL散度在10个标注者处饱和。

介绍苹果第三代基础模型

2026-06-08 08:00 UTC+8

苹果发布了第三代基础模型系列，包含五个模型，与谷歌合作开发，涵盖设备端和服务器端，强调隐私保护和新架构。这些模型驱动全新Siri和智能工具，在评估中展现出显著质量提升。

苹果推出五个新基础模型：两个设备端模型（AFM 3 Core 和 AFM 3 Core Advanced）和三个服务器端模型（AFM 3 Cloud、ADM 3 Cloud 图像模型和 AFM 3 Cloud Pro）。
AFM 3 Core Advanced 采用新颖的稀疏激活架构，将大部分权重存储在闪存中，从而在设备上实现更大的有效模型规模。

苹果在CVPR 2026展示最新研究成果

2026-05-28 08:00 UTC+8

苹果将在2026年6月3日至7日于丹佛举行的CVPR大会上赞助并展示多项研究，包括视频生成、多模态理解、图像压缩等领域，并在展位进行海报演示。

苹果将在CVPR 2026展示STARFlow-V、AToken、Velox等多项创新研究。
活动包括主题演讲、邀请演讲、海报展示及展位演示。

VSAS-Bench：视觉流式助手模型的实时评估

2026-05-22 08:00 UTC+8

流式视觉语言模型（VLM）根据指令和输入帧流连续生成响应，用于实时视觉助手。现有基准多评估离线模型，而VSAS-Bench针对流式VLM引入主动性和一致性等指标，拥有超过18,000个密集标注，提供同步和异步评估协议。大规模评估表明，传统VLM无需额外训练即可适应流式场景，性能优于专用流式VLM。

VSAS-Bench是首个全面评估流式VLM实时性能的基准，包含主动性和一致性等新指标。
基准拥有18,000+密集标注，覆盖多种输入领域和任务类型。

EpiCache：面向资源受限环境下的长期对话的片段式KV缓存管理

2026-05-19 08:00 UTC+8

现代大语言模型（LLM）可处理百万级token的上下文，但键值（KV）缓存随对话历史线性增长，导致内存不足。现有压缩方法多在处理完整个上下文后才驱逐缓存，峰值内存不受控，且查询依赖的驱逐会窄化缓存语义。本文提出EpiCache，一种免训练的KV缓存管理框架，通过分块预填充限制缓存增长，并通过片段式KV压缩保留主题相关上下文。在三个基准测试上，EpiCache准确率提升高达30%，在4-6倍压缩下接近全缓存准确率，延迟和峰值内存分别降低2.4倍和3.7倍。

EpiCache是一种免训练的KV缓存管理框架，适用于固定内存预算下的长对话问答。
通过分块预填充和片段式KV压缩，EpiCache在保留主题上下文的同时限制缓存增长。

BalCapRL：面向多模态大语言模型图像描述的平衡强化学习框架

2026-05-11 08:00 UTC+8

苹果研究团队提出BalCapRL，一个联合优化正确性、覆盖率和语言质量的强化学习框架，用于多模态大语言模型的图像描述生成。通过引入GDPO风格的奖励解耦归一化和长度条件奖励掩码，BalCapRL在LLaVA-1.5和Qwen2.5-VL等模型上实现了显著性能提升，例如DCScore提升13.6点，CaptionQA提升9.0点，CapArena提升29.0点。

现有强化学习图像描述方法在实用性、参考覆盖和语言质量之间存在权衡
BalCapRL提出多目标优化，同时提升三个核心维度

RVPO：通过方差正则化实现风险敏感的对齐

2026-05-08 08:00 UTC+8

当前的无需评论家的RLHF方法通过算术平均聚合多目标奖励，容易忽视约束条件：一个目标的高分可以掩盖其他目标的严重失败。我们提出奖励方差策略优化（RVPO），通过在优势聚合中惩罚奖励间方差，将目标从“最大化总和”转变为“最大化一致性”。泰勒展开表明，LogSumExp（SoftMin）算子可充当平滑的方差惩罚。我们在医疗和科学推理任务（最多17个LLM评判的奖励信号）以及工具调用任务（基于规则的约束）上评估了RVPO。RVPO通过防止模型忽视困难约束来利用简单目标，在HealthBench上取得0.261（GDPO为0.215，p<0.001），并在GPQA-Diamond上保持竞争性准确率，没有出现其他多奖励方法后期性能下降的现象。

当前多目标RLHF方法使用算术平均聚合奖励，导致约束忽视问题。
RVPO通过软最小算子（SoftMin）惩罚奖励方差，鼓励一致性而非总和最大化。

Velox：学习4D几何与外观的表示

2026-05-08 08:00 UTC+8

Velox是一个用于学习4D物体潜在表示的框架，能够从非结构化的动态点云中高效压缩时空彩色点云为动态形状令牌，并通过4D表面解码器和高斯解码器分别重建几何和外观。实验证明其在视频到4D生成、3D跟踪和布料模拟等下游任务中表现优异。

Velox框架可从非结构化动态点云中学习4D物体的压缩表示。
使用动态形状令牌，通过4D表面解码器捕捉几何，高斯解码器学习外观。

苹果隐私保护机器学习与AI研讨会2026

2026-05-08 08:00 UTC+8

苹果于2026年初举办了一场为期两天的隐私保护机器学习与AI研讨会，汇聚了苹果及全球研究社区的研究人员，探讨了隐私保护ML和AI的最新进展，涵盖联邦学习、基础模型隐私、攻击与安全等关键领域。

苹果强调隐私是基本人权，随着AI发展，隐私保护研究至关重要。
研讨会聚焦三大领域：私有学习与统计、基础模型与隐私、攻击与安全。

大规模多视角捕捉下的高质量3D高斯头部重建

2026-05-08 08:00 UTC+8

我们提出了HeadsUp，一种可扩展的前馈方法，用于从大规模多摄像头设置中重建高质量3D高斯头部。该方法采用高效的编码器-解码器架构，将输入视图压缩为紧凑的潜在表示，然后解码为UV参数化的3D高斯分布。该表示将3D高斯数量与输入图像的数量和分辨率解耦，支持使用多个高分辨率输入进行训练。我们在包含超过10,000个主体的内部数据集上训练和评估模型，实现了最先进的重建质量，并能泛化到未见身份，无需测试时优化。我们分析了模型在身份、视图和模型容量上的扩展行为，并展示了潜在空间在生成新3D身份和动画表情方面的应用。

提出HeadsUp方法，利用UV参数化3D高斯实现高效头部重建。
架构将输入编码为潜在表示，解码为锚定在模板上的3D高斯，解耦了高斯数量与输入分辨率。

文本条件JEPA：学习语义丰富的视觉表示

2026-05-07 08:00 UTC+8

苹果机器学习研究团队提出了文本条件联合嵌入预测架构（TC-JEPA），通过引入图像描述文本作为条件，降低了视觉自监督学习中掩码特征预测的不确定性，从而学习到更语义化的视觉表示。该方法在多种下游任务上优于对比学习方法，特别是在需要细粒度视觉理解和推理的任务中。

TC-JEPA利用图像描述文本降低掩码区域特征预测的不确定性，促使模型学习语义表示。
通过细粒度文本条件器对预测的块特征进行调制，计算稀疏交叉注意力，使特征更可预测。

实际应用中学习型图像压缩的关键因素

2026-05-07 08:00 UTC+8

苹果机器学习研究团队在CVPR 2026上发表论文，系统研究了实际学习型图像编解码器的关键建模选择，联合优化感知质量和运行时间。通过性能感知的神经架构搜索，提出新型编解码器，在主观用户测试中比AV1等传统编解码器节省2.3–3倍码率，比最优学习型编解码器节省20–40%码率。在iPhone 17 Pro Max上，编码1200万像素图像仅需230毫秒，解码150毫秒。

系统研究实际学习型图像编解码器的关键建模选择，包括多种新技术。
采用性能感知的神经架构搜索，在数百万种骨干配置中寻找最佳模型。

SpecMD：投机专家预取的全面研究

2026-05-06 08:00 UTC+8

SpecMD是苹果研究人员开发的标准化框架，用于基准测试和评估混合专家（MoE）模型中的专家缓存策略。研究发现MoE专家访问模式不符合时间局部性，从而提出了一种称为Least-Stale的新驱逐策略，与LRU相比，该策略将碰撞未命中率降低了85倍，在OLMoE上实现了88%以上的命中率和34.7%的首令牌时间减少。

SpecMD提供了一个标准化基准框架，用于在不同硬件配置下评估MoE专家缓存策略。
研究发现MoE专家的访问模式与LRU和LFU等时间局部性假设不一致。

带迭代去噪的归一化流

2026-05-06 08:00 UTC+8

苹果机器学习研究推出iTARFlow，一种迭代去噪方法，增强了归一化流在图像生成方面的能力，在多个分辨率的ImageNet上取得了有竞争力的结果。

iTARFlow结合了自回归生成与迭代去噪。
训练时保持基于似然的目标，与扩散模型不同。

从“物体在哪里”到“物体有何用”：多模态大语言模型的空间-功能智能基准测试

2026-05-06 08:00 UTC+8

真正的空间智能超越了低层几何感知，要求理解物体不仅“在哪里”还要“有何用”。苹果机器学习研究团队提出的SFI-Bench基准测试，通过超过1700个来自第一人称室内视频的问题，系统评估多模态大语言模型在结构化空间推理和功能推理两个维度的能力。实验表明，当前模型难以整合空间记忆与功能及外部知识，暴露出关键瓶颈。

SFI-Bench超越了传统几何感知基准，聚焦高级认知能力。
涵盖条件计数、多跳关系推理、功能配对和知识驱动故障排查等任务。

随机KV路由：实现自适应的深度维度缓存共享

2026-05-05 08:00 UTC+8

苹果机器学习研究提出随机KV路由方法，通过在训练中让各层随机选择关注自身或前一层的键值状态，实现跨层缓存共享，从而在不增加推理延迟的前提下显著减少KV缓存内存占用。实验表明，该技术适用于多种模型，且在数据受限场景中具有正则化效果，甚至能保持或提升性能。

KV缓存内存消耗大，影响大语言模型服务成本
现有方法多沿时间轴压缩或驱逐缓存，本文利用深度维度优化

PORTool：基于重要性感知和奖励树的多工具集成推理策略优化

2026-05-04 08:00 UTC+8

苹果与普渡大学联合提出PORTool算法，通过生成奖励展开树和步骤级重要性估计，解决多工具推理中信用分配模糊问题，提升最终答案准确率并减少工具调用次数。

PORTool利用奖励树直接比较同一上下文中的不同工具使用决策。
通过正确性主导信号和辅助执行成功信号估计每步重要性。

强化智能体：工具调用智能体的推理时反馈

2026-05-01 08:00 UTC+8

苹果研究团队提出一种在推理时将评估引入执行循环的方法，通过专门的评审智能体在工具调用前进行预评估，从而实时纠正错误。实验表明，该方法在BFCL和τ2-Bench上分别提升5.5%和7.1%，并引入了有用性-有害性指标来量化纠错带来的收益与风险。

将评估从事后分析移至推理时执行循环中，实现实时纠错。
引入有用性-有害性指标，量化评审智能体带来的净收益。

国际声学、语音与信号处理大会（ICASSP）2026

2026-04-30 08:00 UTC+8

苹果将在2026年5月4日至8日于西班牙巴塞罗那举行的ICASSP 2026上展示新研究成果，并赞助该会议。本文介绍了苹果的参与详情，包括展位时间、论文发表和学术服务。

苹果将在ICASSP 2026展示三项研究成果，涵盖多语言语音模型、立体声音频生成和推测解码。
苹果展位P2将于5月4日19:00-21:30及5月5-8日09:00-17:00开放。

用手语模型引导手语标注

2026-04-30 08:00 UTC+8

苹果公司和加劳德特大学的研究人员开发了一种伪标注流程，以解决高质量标注手语数据稀缺的问题。该方法使用手指拼写识别器、孤立手语识别器和K-Shot大型语言模型，从手语视频和英语输入生成可能的标注。他们在FSBoard上实现了6.7%的词错误率（CER），在ASL Citizen上实现了74%的Top-1准确率，并发布了近500个人工标注视频和超过300小时的伪标注数据。

高质量标注数据缺乏限制了AI手语翻译；ASL STEM Wiki和FLEURS-ASL等新数据集包含数百小时数据，但因标注成本高昂而被未充分利用。
该流程结合手指拼写识别器、孤立手语识别器（ISR）和K-Shot LLM，生成带时间区间的排名标注。

STARFlow-V：基于归一化流的端到端视频生成建模

2026-04-30 08:00 UTC+8

苹果机器学习研究团队提出STARFlow-V，一种基于归一化流的视频生成器，具有端到端学习、鲁棒因果预测和原生似然估计等优势。该模型在时空潜空间中采用全局-局部架构，并通过流得分匹配和视频感知雅可比迭代方案，实现了高视觉保真度和时间一致性，首次证明了归一化流在高质量自回归视频生成中的潜力。

STARFlow-V是基于归一化流的视频生成模型，挑战扩散模型的主导地位。
采用全局-局部架构减少误差累积，支持文本/图像/视频到视频的多任务生成。

DSO：用于偏差缓解的直接转向优化

2026-04-29 08:00 UTC+8

苹果机器学习研究团队提出DSO（直接转向优化），利用强化学习学习线性变换来转向模型激活，在视觉-语言模型（VLM）和大语言模型（LLM）中有效缓解偏差，实现了公平性与性能之间最先进的权衡，并允许用户在推理时控制这一权衡。

DSO通过强化学习学习线性变换，在推理时转向模型激活以缓解偏差。
在VLM和LLM上，DSO实现了公平性与性能之间最先进的权衡。

自适应思考：大语言模型知道何时在隐空间中进行思考

2026-04-29 08:00 UTC+8

苹果机器学习研究提出 Sonata，一种轻量级适配器，通过自我一致性预测来动态分配推理时的思维预算，在保持准确率的同时将思维令牌减少20%至80%，或同等令牌成本下准确率提升5%。

利用自洽性作为判断是否需要扩展思考的代理指标。
提出Sonata轻量适配器，在查询预填充阶段预测自洽性，动态分配思维预算。

LaDiR：潜在扩散增强LLM的文本推理能力

2026-04-28 08:00 UTC+8

LaDiR结合变分自编码器和潜在扩散模型，通过块级双向注意力实现推理轨迹的迭代精炼，在数学推理和规划基准上显著提升了准确性、多样性和可解释性。

LaDiR使用VAE将推理步骤编码为潜在思想块，保留语义信息。
潜在扩散模型通过块级双向注意力掩码实现全局迭代精炼。

StereoFoley：从视频生成对象感知的立体声音频

2026-04-28 08:00 UTC+8

Apple机器学习研究团队在ICASSP 2026上提出StereoFoley框架，能够从视频中生成语义对齐、时间同步且空间准确的48kHz立体声音频。通过合成数据管道和微调技术，解决了现有模型缺乏对象感知立体声成像的问题，并引入了新的评估指标。

StereoFoley是首个端到端对象感知立体声视频到音频生成框架，输出48kHz立体声。
利用合成数据管道结合物体跟踪和动态声像控制，克服了专业数据集的缺失。

条件扩散模型中组合泛化的局部机制

2026-04-28 08:00 UTC+8

该研究探讨了条件扩散模型如何在超出训练分布的组合条件下实现组合泛化，特别是长度泛化——生成比训练时更多对象的图像。通过在CLEVR数据集上的实验，发现模型在某些情况下能实现长度泛化，但并非总是如此。研究者提出并证明了局部条件分数与特定组合结构（条件投影组合）之间的等价性，并验证了局部条件分数是成功泛化的关键。因果干预实验显示，强制局部条件分数可使原本失败的模型实现长度泛化。在SDXL模型中，像素空间存在空间局部性但缺乏条件局部性，然而在特征空间中发现了局部条件分数的证据。

条件扩散模型在部分情况下能实现长度泛化，但并非普遍。
局部条件分数是组合泛化的关键机制，与条件投影组合结构等价。

Apple Machine Learning Research

最新公开文章

九位法官，两张有效票：相关性错误削弱LLM评估小组

用于从标签分布学习中度量依赖的标注饱和

介绍苹果第三代基础模型

苹果在CVPR 2026展示最新研究成果

VSAS-Bench：视觉流式助手模型的实时评估

EpiCache：面向资源受限环境下的长期对话的片段式KV缓存管理

BalCapRL：面向多模态大语言模型图像描述的平衡强化学习框架

RVPO：通过方差正则化实现风险敏感的对齐

Velox：学习4D几何与外观的表示

苹果隐私保护机器学习与AI研讨会2026

大规模多视角捕捉下的高质量3D高斯头部重建

文本条件JEPA：学习语义丰富的视觉表示

实际应用中学习型图像压缩的关键因素

SpecMD：投机专家预取的全面研究

带迭代去噪的归一化流

从“物体在哪里”到“物体有何用”：多模态大语言模型的空间-功能智能基准测试

随机KV路由：实现自适应的深度维度缓存共享

PORTool：基于重要性感知和奖励树的多工具集成推理策略优化

强化智能体：工具调用智能体的推理时反馈

国际声学、语音与信号处理大会（ICASSP）2026

用手语模型引导手语标注

STARFlow-V：基于归一化流的端到端视频生成建模

DSO：用于偏差缓解的直接转向优化

自适应思考：大语言模型知道何时在隐空间中进行思考

LaDiR：潜在扩散增强LLM的文本推理能力

StereoFoley：从视频生成对象感知的立体声音频

条件扩散模型中组合泛化的局部机制

全部来源