苹果在CVPR 2026展示最新研究成果
苹果将在2026年6月3日至7日于丹佛举行的CVPR大会上赞助并展示多项研究,包括视频生成、多模态理解、图像压缩等领域,并在展位进行海报演示。
文章情报
要点
- 苹果将在CVPR 2026展示STARFlow-V、AToken、Velox等多项创新研究。
- 活动包括主题演讲、邀请演讲、海报展示及展位演示。
- 多位苹果研究员担任区域主席和评审,Alex Colburn和Qi Shan被评为杰出区域主席。
为什么重要
这条新闻值得关注,因为苹果将在CVPR 2026展示STARFlow-V、AToken、Velox等多项创新研究。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
苹果公司将在2026年IEEE/CVF计算机视觉与模式识别大会(CVPR)上展示其最新研究成果。该会议将于2026年6月3日至7日在丹佛科罗拉多会议中心线下举行,苹果很荣幸成为会议的赞助商之一。CVPR是计算机视觉与模式识别领域最重要的学术会议之一,汇集了全球学术界和工业界的研究人员。
苹果在CVPR 2026的参与涵盖了多个方面。6月3日,苹果研究员Colin Lea将在GenSign研讨会上发表主题演讲,主题为生成式AI在手语中的应用。同日,Oncel Tuzel将在ECV和EDGE研讨会上发表邀请演讲,内容涉及高效深度学习与设备端生成。此外,Hsin-Ping (Cindy) Huang和Maggie Xiao将代表苹果参加WiCV亲善活动。6月4日,Afshin Dehghan将在VidLLMs研讨会上发表邀请演讲,探讨视频大语言模型。
苹果的展位(#231)将在6月5日至7日开放。展位期间将进行多场海报演示:6月5日上午,Pavan Kumar Anasosalu Vasu将介绍VSAS-Bench(视觉流助手模型实时评估);下午,Byeongjoo Ahn和Jiasen Lu将展示AToken(统一视觉分词器)。6月6日上午,Jiatao Gu将展示STARFlow-V(基于归一化流的端到端视频生成);下午,Rick Chang和Di Feng将分别介绍Velox(4D几何与外观表示)和SO-Bench(多模态LLM结构输出评估)。
苹果被录用的论文涵盖了多个前沿领域。AMUSE提出了一个音频-视觉基准和对齐框架;AToken实现了统一的视觉分词;Bootstrapping Sign Language Annotations利用手语模型进行标注;DSO通过直接优化偏差缓解训练;Spatial-Functional Intelligence评估多模态LLM的空间功能智能;Learning Long-Term Motion Embeddings用于高效运动生成;Pico-Banana-400K是一个大规模文本引导图像编辑数据集;SO-Bench评估多模态LLM的结构化输出;STARFlow-V实现了端到端视频生成;TrajTok利用轨迹令牌提升视频理解;UniGen-1.5通过强化学习统一奖励进行图像生成与编辑;Velox学习4D几何与外观;VSAS-Bench实时评估视觉流助手模型;What Matters in Practical Learned Image Compression探讨实际图像压缩中的关键因素。
在人员方面,Alex Colburn和Qi Shan被评为杰出区域主席。Byeongjoo Ahn、Chen Chen、Fartash Faghri、Oncel Tuzel和Xiaoming Zhao担任区域主席。Jeffrey Bigham是VizWiz挑战赛研讨会的联合组织者。Sanjoy Chowdhury、Barry-John Theobald、Santhosh Kumar Ramakrishnan和Raviteja Vemulapalli被评为杰出评审。另有十余名苹果研究员担任评审。
此外,苹果此前还参与了NeurIPS 2024和EMNLP 2024,分别展示了机器学习和自然语言处理领域的研究成果。