文本条件JEPA:学习语义丰富的视觉表示
苹果机器学习研究团队提出了文本条件联合嵌入预测架构(TC-JEPA),通过引入图像描述文本作为条件,降低了视觉自监督学习中掩码特征预测的不确定性,从而学习到更语义化的视觉表示。该方法在多种下游任务上优于对比学习方法,特别是在需要细粒度视觉理解和推理的任务中。
苹果机器学习研究团队在最新论文中提出了一种名为文本条件联合嵌入预测架构(Text-Conditional JEPA, TC-JEPA)的新方法,旨在提升视觉自监督学习中的语义表示能力。该研究发表于ICML 2026,由Chen Huang、Xianhang Li、Vimal Thilak、Etai Littwin和Josh Susskind共同完成。
传统的图像基础联合嵌入预测架构(I-JEPA)通过掩码特征预测进行视觉自监督学习,但由于掩码位置固有的视觉不确定性,特征预测面临挑战,难以学习到真正的语义表示。例如,在预测被遮挡区域时,模型可能只能依赖周围的视觉线索,而无法捕捉更高层的语义信息。TC-JEPA的核心创新在于利用图像描述(即标题)作为条件信息来减少这种预测不确定性。具体来说,模型采用一个细粒度的文本条件器,该条件器通过计算与输入文本标记的稀疏交叉注意力来调制预测的块特征。通过这样的条件调节,块特征能够成为文本的函数,从而更具语义意义。这种设计允许模型在预测过程中融合文本信息,使得被预测的特征不仅依赖于视觉上下文,还受到语言描述的引导。
实验结果表明,TC-JEPA在下游任务性能、训练稳定性以及模型缩放性方面均取得了显著提升。在ImageNet分类、COCO检测、LVIS分割等基准测试中,TC-JEPA相比I-JEPA和对比学习方法(如CLIP、SimCLR)表现出更优的性能。特别是在需要细粒度理解的任务,如场景图生成、视觉推理和指代表达理解中,TC-JEPA的优势更为明显。此外,该方法提供了一种全新的视觉-语言预训练范式,该范式完全基于特征预测,而非传统的对比学习。这意味着模型可以在不需要大量负样本对的情况下学习联合表示,降低了计算开销和训练复杂度。
这项研究为视觉自监督学习与多模态学习提供了新的思路,通过引入文本条件有效解决了掩码预测中的不确定性问题,推动了语义丰富的视觉表示学习的发展。未来,TC-JEPA有望应用于更广泛的领域,如自动驾驶、医学图像分析和机器人视觉,其中对细粒度语义理解的需求至关重要。