九位法官,两张有效票:相关性错误削弱LLM评估小组
研究显示,由多个LLM组成的评估小组因模型间相关错误,实际信息量远低于独立投票的理想状态。9个前沿模型仅相当于约2个独立投票,准确率下降8-22个百分点,最佳单一模型可媲美或超越整个小组。增加法官或改进聚合算法效果有限。
- 9个LLM评估小组实际只有约2个独立投票的信息量,约75%的名义独立性因模型重复错误而丧失。
- 小组实际准确率比独立投票理想状态低8-22个百分点,最佳单一模型表现不逊于甚至超越整个小组。
来源详情
AI News Hub 持续跟踪 Apple Machine Learning Research 的 AI 更新,并公开来源状态、授权边界、抓取方式和已发布文章。
Official research source; confirm reuse terms before enabling full body display.
研究显示,由多个LLM组成的评估小组因模型间相关错误,实际信息量远低于独立投票的理想状态。9个前沿模型仅相当于约2个独立投票,准确率下降8-22个百分点,最佳单一模型可媲美或超越整个小组。增加法官或改进聚合算法效果有限。
当标注者之间存在分歧时,分歧本身携带有用信号,但捕捉该信号所需的标注者数量取决于评估指标。本文通过在ChaosNLI数据集上微调NLI模型,发现熵相关性需要20-50个标注者才能收敛,而KL散度在约10个标注者时达到饱和。软标签能够捕捉项目特定的分歧信号,而标签平滑无法做到这一点。研究建议标注预算应根据目标评估指标来设定,而非统一规定。
苹果发布了第三代基础模型系列,包含五个模型,与谷歌合作开发,涵盖设备端和服务器端,强调隐私保护和新架构。这些模型驱动全新Siri和智能工具,在评估中展现出显著质量提升。
苹果将在2026年6月3日至7日于丹佛举行的CVPR大会上赞助并展示多项研究,包括视频生成、多模态理解、图像压缩等领域,并在展位进行海报演示。
流式视觉语言模型(VLM)根据指令和输入帧流连续生成响应,用于实时视觉助手。现有基准多评估离线模型,而VSAS-Bench针对流式VLM引入主动性和一致性等指标,拥有超过18,000个密集标注,提供同步和异步评估协议。大规模评估表明,传统VLM无需额外训练即可适应流式场景,性能优于专用流式VLM。
现代大语言模型(LLM)可处理百万级token的上下文,但键值(KV)缓存随对话历史线性增长,导致内存不足。现有压缩方法多在处理完整个上下文后才驱逐缓存,峰值内存不受控,且查询依赖的驱逐会窄化缓存语义。本文提出EpiCache,一种免训练的KV缓存管理框架,通过分块预填充限制缓存增长,并通过片段式KV压缩保留主题相关上下文。在三个基准测试上,EpiCache准确率提升高达30%,在4-6倍压缩下接近全缓存准确率,延迟和峰值内存分别降低2.4倍和3.7倍。
苹果研究团队提出BalCapRL,一个联合优化正确性、覆盖率和语言质量的强化学习框架,用于多模态大语言模型的图像描述生成。通过引入GDPO风格的奖励解耦归一化和长度条件奖励掩码,BalCapRL在LLaVA-1.5和Qwen2.5-VL等模型上实现了显著性能提升,例如DCScore提升13.6点,CaptionQA提升9.0点,CapArena提升29.0点。
当前的无需评论家的RLHF方法通过算术平均聚合多目标奖励,容易忽视约束条件:一个目标的高分可以掩盖其他目标的严重失败。我们提出奖励方差策略优化(RVPO),通过在优势聚合中惩罚奖励间方差,将目标从“最大化总和”转变为“最大化一致性”。泰勒展开表明,LogSumExp(SoftMin)算子可充当平滑的方差惩罚。我们在医疗和科学推理任务(最多17个LLM评判的奖励信号)以及工具调用任务(基于规则的约束)上评估了RVPO。RVPO通过防止模型忽视困难约束来利用简单目标,在HealthBench上取得0.261(GDPO为0.215,p<0.001),并在GPQA-Diamond上保持竞争性准确率,没有出现其他多奖励方法后期性能下降的现象。
Velox是一个用于学习4D物体潜在表示的框架,能够从非结构化的动态点云中高效压缩时空彩色点云为动态形状令牌,并通过4D表面解码器和高斯解码器分别重建几何和外观。实验证明其在视频到4D生成、3D跟踪和布料模拟等下游任务中表现优异。
苹果于2026年初举办了一场为期两天的隐私保护机器学习与AI研讨会,汇聚了苹果及全球研究社区的研究人员,探讨了隐私保护ML和AI的最新进展,涵盖联邦学习、基础模型隐私、攻击与安全等关键领域。
我们提出了HeadsUp,一种可扩展的前馈方法,用于从大规模多摄像头设置中重建高质量3D高斯头部。该方法采用高效的编码器-解码器架构,将输入视图压缩为紧凑的潜在表示,然后解码为UV参数化的3D高斯分布。该表示将3D高斯数量与输入图像的数量和分辨率解耦,支持使用多个高分辨率输入进行训练。我们在包含超过10,000个主体的内部数据集上训练和评估模型,实现了最先进的重建质量,并能泛化到未见身份,无需测试时优化。我们分析了模型在身份、视图和模型容量上的扩展行为,并展示了潜在空间在生成新3D身份和动画表情方面的应用。
苹果机器学习研究团队提出了文本条件联合嵌入预测架构(TC-JEPA),通过引入图像描述文本作为条件,降低了视觉自监督学习中掩码特征预测的不确定性,从而学习到更语义化的视觉表示。该方法在多种下游任务上优于对比学习方法,特别是在需要细粒度视觉理解和推理的任务中。
苹果机器学习研究团队在CVPR 2026上发表论文,系统研究了实际学习型图像编解码器的关键建模选择,联合优化感知质量和运行时间。通过性能感知的神经架构搜索,提出新型编解码器,在主观用户测试中比AV1等传统编解码器节省2.3–3倍码率,比最优学习型编解码器节省20–40%码率。在iPhone 17 Pro Max上,编码1200万像素图像仅需230毫秒,解码150毫秒。
SpecMD是苹果研究人员开发的标准化框架,用于基准测试和评估混合专家(MoE)模型中的专家缓存策略。研究发现MoE专家访问模式不符合时间局部性,从而提出了一种称为Least-Stale的新驱逐策略,与LRU相比,该策略将碰撞未命中率降低了85倍,在OLMoE上实现了88%以上的命中率和34.7%的首令牌时间减少。
苹果机器学习研究推出iTARFlow,一种迭代去噪方法,增强了归一化流在图像生成方面的能力,在多个分辨率的ImageNet上取得了有竞争力的结果。
真正的空间智能超越了低层几何感知,要求理解物体不仅“在哪里”还要“有何用”。苹果机器学习研究团队提出的SFI-Bench基准测试,通过超过1700个来自第一人称室内视频的问题,系统评估多模态大语言模型在结构化空间推理和功能推理两个维度的能力。实验表明,当前模型难以整合空间记忆与功能及外部知识,暴露出关键瓶颈。
苹果机器学习研究提出随机KV路由方法,通过在训练中让各层随机选择关注自身或前一层的键值状态,实现跨层缓存共享,从而在不增加推理延迟的前提下显著减少KV缓存内存占用。实验表明,该技术适用于多种模型,且在数据受限场景中具有正则化效果,甚至能保持或提升性能。
苹果与普渡大学联合提出PORTool算法,通过生成奖励展开树和步骤级重要性估计,解决多工具推理中信用分配模糊问题,提升最终答案准确率并减少工具调用次数。
苹果研究团队提出一种在推理时将评估引入执行循环的方法,通过专门的评审智能体在工具调用前进行预评估,从而实时纠正错误。实验表明,该方法在BFCL和τ2-Bench上分别提升5.5%和7.1%,并引入了有用性-有害性指标来量化纠错带来的收益与风险。
苹果将在2026年5月4日至8日于西班牙巴塞罗那举行的ICASSP 2026上展示新研究成果,并赞助该会议。本文介绍了苹果的参与详情,包括展位时间、论文发表和学术服务。
苹果公司和加劳德特大学的研究人员开发了一种伪标注流程,以解决高质量标注手语数据稀缺的问题。该方法使用手指拼写识别器、孤立手语识别器和K-Shot大型语言模型,从手语视频和英语输入生成可能的标注。他们在FSBoard上实现了6.7%的词错误率(CER),在ASL Citizen上实现了74%的Top-1准确率,并发布了近500个人工标注视频和超过300小时的伪标注数据。
苹果机器学习研究团队提出STARFlow-V,一种基于归一化流的视频生成器,具有端到端学习、鲁棒因果预测和原生似然估计等优势。该模型在时空潜空间中采用全局-局部架构,并通过流得分匹配和视频感知雅可比迭代方案,实现了高视觉保真度和时间一致性,首次证明了归一化流在高质量自回归视频生成中的潜力。
苹果机器学习研究团队提出DSO(直接转向优化),利用强化学习学习线性变换来转向模型激活,在视觉-语言模型(VLM)和大语言模型(LLM)中有效缓解偏差,实现了公平性与性能之间最先进的权衡,并允许用户在推理时控制这一权衡。
苹果机器学习研究提出 Sonata,一种轻量级适配器,通过自我一致性预测来动态分配推理时的思维预算,在保持准确率的同时将思维令牌减少20%至80%,或同等令牌成本下准确率提升5%。
LaDiR结合变分自编码器和潜在扩散模型,通过块级双向注意力实现推理轨迹的迭代精炼,在数学推理和规划基准上显著提升了准确性、多样性和可解释性。
Apple机器学习研究团队在ICASSP 2026上提出StereoFoley框架,能够从视频中生成语义对齐、时间同步且空间准确的48kHz立体声音频。通过合成数据管道和微调技术,解决了现有模型缺乏对象感知立体声成像的问题,并引入了新的评估指标。
该研究探讨了条件扩散模型如何在超出训练分布的组合条件下实现组合泛化,特别是长度泛化——生成比训练时更多对象的图像。通过在CLEVR数据集上的实验,发现模型在某些情况下能实现长度泛化,但并非总是如此。研究者提出并证明了局部条件分数与特定组合结构(条件投影组合)之间的等价性,并验证了局部条件分数是成功泛化的关键。因果干预实验显示,强制局部条件分数可使原本失败的模型实现长度泛化。在SDXL模型中,像素空间存在空间局部性但缺乏条件局部性,然而在特征空间中发现了局部条件分数的证据。