テキスト条件付きJEPA:意味的に豊かな視覚表現の学習
Apple機械学習研究チームは、画像キャプションを条件としてマスク特徴予測の不確実性を低減し、より意味的な視覚表現を学習するText-Conditional JEPA(TC-JEPA)を提案。多様なタスクで対照学習法を上回り、特に細かい視覚理解と推論を必要とするタスクで優れる。
Appleの機械学習研究チームは、最新の論文で、Text-Conditional JEPA(TC-JEPA)と呼ばれる新しい手法を提案しました。この手法は、視覚的自己教師あり学習における意味的表現の能力を向上させることを目的としています。本研究はICML 2026に採択され、Chen Huang、Xianhang Li、Vimal Thilak、Etai Littwin、Josh Susskindによって執筆されました。
従来の画像ベースのJoint-Embedding Predictive Architecture(I-JEPA)は、マスク特徴予測を通じて視覚的自己教師あり学習を行いますが、マスク位置に固有の視覚的不確実性のため、特徴予測は困難であり、意味的な表現を学習できない場合があります。例えば、隠された領域を予測する際、モデルは周囲の視覚的手がかりにのみ依存する可能性があり、高レベルの意味情報を捉えることができません。TC-JEPAの核心的な革新は、画像キャプション(説明文)を条件情報として使用し、この予測の不確実性を低減することです。具体的には、モデルは詳細なテキスト条件付け器を使用し、入力テキストトークンに対するスパースな交差注意を計算して、予測されるパッチ特徴を変調します。このような条件付けにより、パッチ特徴はテキストの関数として予測可能になり、より意味的に意味のあるものになります。この設計により、モデルは予測プロセス中にテキスト情報を融合でき、予測される特徴は視覚的文脈だけでなく言語記述によっても導かれます。
実験結果によると、TC-JEPAは下流タスクのパフォーマンス、学習の安定性、およびモデルのスケーリング特性において顕著な改善を示しました。ImageNet分類、COCO検出、LVISセグメンテーションなどのベンチマークで、TC-JEPAはI-JEPAや対照学習法(CLIP、SimCLRなど)と比較して優れた性能を発揮しました。特に、シーングラフ生成、視覚推論、参照表現理解などの細かい理解を必要とするタスクで、TC-JEPAの優位性が顕著です。さらに、この手法は特徴予測のみに基づく新しい視覚言語事前学習パラダイムを提供し、従来の対照学習とは異なり、大量の負のサンプルペアを必要とせずに学習できるため、計算オーバーヘッドとトレーニングの複雑さを低減します。
この研究は、テキスト条件を導入することでマスク予測の不確実性を効果的に低減し、意味的に豊かな視覚表現学習を促進する新しい方向性を示しています。今後、TC-JEPAは自動運転、医用画像分析、ロボットビジョンなど、細かい意味理解が重要となる幅広い分野での応用が期待されます。