2026-05-28 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

蘋果在CVPR 2026展示最新研究成果

蘋果將在2026年6月3日至7日于丹佛舉行的CVPR大會上贊助並展示多項研究，包括影片生成、多模態理解、影像壓縮等領域，並在展位進行海報演示。

蘋果公司將在2026年IEEE/CVF計算機視覺與模式識別大會（CVPR）上展示其最新研究成果。該會議將於2026年6月3日至7日在丹佛科羅拉多會議中心線下舉行，蘋果很榮幸成為會議的贊助商之一。CVPR是計算機視覺與模式識別領域最重要的學術會議之一，彙集了全球學術界和工業界的研究人員。

蘋果在CVPR 2026的參與涵蓋了多個方面。6月3日，蘋果研究員Colin Lea將在GenSign研討會上發表主題演講，主題為生成式AI在手語中的應用。同日，Oncel Tuzel將在ECV和EDGE研討會上發表邀請演講，內容涉及高效深度學習與裝置端生成。此外，Hsin-Ping (Cindy) Huang和Maggie Xiao將代表蘋果參加WiCV親善活動。6月4日，Afshin Dehghan將在VidLLMs研討會上發表邀請演講，探討影片大語言模型。

蘋果的展位（#231）將在6月5日至7日開放。展位期間將進行多場海報演示：6月5日上午，Pavan Kumar Anasosalu Vasu將介紹VSAS-Bench（視覺流助手模型即時評估）；下午，Byeongjoo Ahn和Jiasen Lu將展示AToken（統一視覺分詞器）。6月6日上午，Jiatao Gu將展示STARFlow-V（基於歸一化流的端到端影片生成）；下午，Rick Chang和Di Feng將分別介紹Velox（4D幾何與外觀表示）和SO-Bench（多模態LLM結構輸出評估）。

蘋果被錄用的論文涵蓋了多個前沿領域。AMUSE提出了一個音訊-視覺基準和對齊框架；AToken實現了統一的視覺分詞；Bootstrapping Sign Language Annotations利用手語模型進行標註；DSO透過直接最佳化偏差緩解訓練；Spatial-Functional Intelligence評估多模態LLM的空間功能智慧；Learning Long-Term Motion Embeddings用於高效運動生成；Pico-Banana-400K是一個大規模文本引導影像編輯資料集；SO-Bench評估多模態LLM的結構化輸出；STARFlow-V實現了端到端影片生成；TrajTok利用軌跡令牌提升影片理解；UniGen-1.5透過強化學習統一獎勵進行影像生成與編輯；Velox學習4D幾何與外觀；VSAS-Bench即時評估視覺流助手模型；What Matters in Practical Learned Image Compression探討實際影像壓縮中的關鍵因素。

在人員方面，Alex Colburn和Qi Shan被評為傑出區域主席。Byeongjoo Ahn、Chen Chen、Fartash Faghri、Oncel Tuzel和Xiaoming Zhao擔任區域主席。Jeffrey Bigham是VizWiz挑戰賽研討會的聯合組織者。Sanjoy Chowdhury、Barry-John Theobald、Santhosh Kumar Ramakrishnan和Raviteja Vemulapalli被評為傑出評審。另有十餘名蘋果研究員擔任評審。

此外，蘋果此前還參與了NeurIPS 2024和EMNLP 2024，分別展示了機器學習和自然語言處理領域的研究成果。