2026-05-28 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

苹果在CVPR 2026展示最新研究成果

苹果将在2026年6月3日至7日于丹佛举行的CVPR大会上赞助并展示多项研究，包括视频生成、多模态理解、图像压缩等领域，并在展位进行海报演示。

苹果公司将在2026年IEEE/CVF计算机视觉与模式识别大会（CVPR）上展示其最新研究成果。该会议将于2026年6月3日至7日在丹佛科罗拉多会议中心线下举行，苹果很荣幸成为会议的赞助商之一。CVPR是计算机视觉与模式识别领域最重要的学术会议之一，汇集了全球学术界和工业界的研究人员。

苹果在CVPR 2026的参与涵盖了多个方面。6月3日，苹果研究员Colin Lea将在GenSign研讨会上发表主题演讲，主题为生成式AI在手语中的应用。同日，Oncel Tuzel将在ECV和EDGE研讨会上发表邀请演讲，内容涉及高效深度学习与设备端生成。此外，Hsin-Ping (Cindy) Huang和Maggie Xiao将代表苹果参加WiCV亲善活动。6月4日，Afshin Dehghan将在VidLLMs研讨会上发表邀请演讲，探讨视频大语言模型。

苹果的展位（#231）将在6月5日至7日开放。展位期间将进行多场海报演示：6月5日上午，Pavan Kumar Anasosalu Vasu将介绍VSAS-Bench（视觉流助手模型实时评估）；下午，Byeongjoo Ahn和Jiasen Lu将展示AToken（统一视觉分词器）。6月6日上午，Jiatao Gu将展示STARFlow-V（基于归一化流的端到端视频生成）；下午，Rick Chang和Di Feng将分别介绍Velox（4D几何与外观表示）和SO-Bench（多模态LLM结构输出评估）。

苹果被录用的论文涵盖了多个前沿领域。AMUSE提出了一个音频-视觉基准和对齐框架；AToken实现了统一的视觉分词；Bootstrapping Sign Language Annotations利用手语模型进行标注；DSO通过直接优化偏差缓解训练；Spatial-Functional Intelligence评估多模态LLM的空间功能智能；Learning Long-Term Motion Embeddings用于高效运动生成；Pico-Banana-400K是一个大规模文本引导图像编辑数据集；SO-Bench评估多模态LLM的结构化输出；STARFlow-V实现了端到端视频生成；TrajTok利用轨迹令牌提升视频理解；UniGen-1.5通过强化学习统一奖励进行图像生成与编辑；Velox学习4D几何与外观；VSAS-Bench实时评估视觉流助手模型；What Matters in Practical Learned Image Compression探讨实际图像压缩中的关键因素。

在人员方面，Alex Colburn和Qi Shan被评为杰出区域主席。Byeongjoo Ahn、Chen Chen、Fartash Faghri、Oncel Tuzel和Xiaoming Zhao担任区域主席。Jeffrey Bigham是VizWiz挑战赛研讨会的联合组织者。Sanjoy Chowdhury、Barry-John Theobald、Santhosh Kumar Ramakrishnan和Raviteja Vemulapalli被评为杰出评审。另有十余名苹果研究员担任评审。

此外，苹果此前还参与了NeurIPS 2024和EMNLP 2024，分别展示了机器学习和自然语言处理领域的研究成果。