实际应用中学习型图像压缩的关键因素
苹果机器学习研究团队在CVPR 2026上发表论文,系统研究了实际学习型图像编解码器的关键建模选择,联合优化感知质量和运行时间。通过性能感知的神经架构搜索,提出新型编解码器,在主观用户测试中比AV1等传统编解码器节省2.3–3倍码率,比最优学习型编解码器节省20–40%码率。在iPhone 17 Pro Max上,编码1200万像素图像仅需230毫秒,解码150毫秒。
苹果机器学习研究团队在CVPR 2026上发表了题为《What Matters in Practical Learned Image Compression》的论文,系统探讨了实际应用中学习型图像压缩的关键因素。学习型编解码器相比传统硬编码编解码器的一大优势是能够直接针对人类视觉系统进行优化。然而,尽管有这一潜力,目前尚未出现既具备感知质量又实用的图像编解码器。这项研究旨在填补这一空白。
研究人员对实际学习型图像编解码器设计中的关键建模选择进行了全面研究,包括多种新颖的技术消融实验。他们特别关注那些能够同时优化感知质量和运行时间的设计选择,并在消融研究中引入了若干新技术。随后,他们执行了性能感知的神经架构搜索,在数百万种骨干网络配置中寻找能够达到目标设备运行时间同时最大化压缩性能(由感知指标衡量)的模型。这种搜索方法确保了最终模型在速度和感知质量之间取得了最佳平衡。
通过综合各种优化,他们构建了一种新型编解码器,在速度和感知质量之间实现了显著改善的权衡。基于严格的主观用户研究,该编解码器相比AV1、AV2、VVC、ECM和JPEG-AI等传统标准,节省了2.3至3倍的码率;相比最佳的学习型编解码器替代方案,节省了20%至40%的码率。这意味着在相同的感知质量下,新编解码器能够实现更低的比特率,从而节省带宽和存储空间。
同时,该编解码器在实际设备上的表现也非常出色。在iPhone 17 Pro Max上,编码1200万像素图像仅需230毫秒,解码仅需150毫秒——这比大多数顶级基于机器学习的编解码器在V100 GPU上运行还要快。这种速度使得该编解码器非常适合移动设备等资源受限的场景,为实时图像传输和存储提供了可能。
论文作者包括Kedar Tatwawadi、Parisa Rahimzadeh、Zhanghao Sun、Zhiqi Chen、Ziyun Yang、Sanjay Nair、Divija Hasteer和Oren Rippel。相关代码已在GitHub上开源,便于研究社区复现和进一步开发。这一成果代表了学习型图像压缩在实用性和感知质量方面的重要进展,有望推动移动设备上的高效图像传输和存储,并对计算机视觉和多媒体领域产生深远影响。