2026-05-07 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

文本條件JEPA：學習語義豐富的視覺表示

蘋果機器學習研究團隊提出了文本條件聯合嵌入預測架構（TC-JEPA），透過引入影像描述文本作為條件，降低了視覺自監督學習中掩碼特徵預測的不確定性，從而學習到更語義化的視覺表示。該方法在多種下游任務上優於對比學習方法，特別是在需要細粒度視覺理解和推理的任務中。

來源Apple Machine Learning Research

蘋果機器學習研究團隊在最新論文中提出了一種名為文本條件聯合嵌入預測架構（Text-Conditional JEPA, TC-JEPA）的新方法，旨在提升視覺自監督學習中的語義表示能力。該研究發表於ICML 2026，由Chen Huang、Xianhang Li、Vimal Thilak、Etai Littwin和Josh Susskind共同完成。

傳統的影像基礎聯合嵌入預測架構（I-JEPA）透過掩碼特徵預測進行視覺自監督學習，但由於掩碼位置固有的視覺不確定性，特徵預測面臨挑戰，難以學習到真正的語義表示。例如，在預測被遮擋區域時，模型可能只能依賴周圍的視覺線索，而無法捕捉更高層的語義資訊。TC-JEPA的核心創新在於利用影像描述（即標題）作為條件資訊來減少這種預測不確定性。具體來說，模型採用一個細粒度的文本條件器，該條件器透過計算與輸入文本標記的稀疏交叉注意力來調變預測的塊特徵。透過這樣的條件調節，塊特徵能夠成為文本的函式，從而更具語義意義。這種設計允許模型在預測過程中融合文本資訊，使得被預測的特徵不僅依賴於視覺上下文，還受到語言描述的引導。

實驗結果表明，TC-JEPA在下游任務效能、訓練穩定性以及模型縮放性方面均取得了顯著提升。在ImageNet分類、COCO檢測、LVIS分割等基準測試中，TC-JEPA相比I-JEPA和對比學習方法（如CLIP、SimCLR）表現出更優的效能。特別是在需要細粒度理解的任務，如場景圖生成、視覺推理和指代表達理解中，TC-JEPA的優勢更為明顯。此外，該方法提供了一種全新的視覺-語言預訓練正規化，該正規化完全基於特徵預測，而非傳統的對比學習。這意味著模型可以在不需要大量負樣本對的情況下學習聯合表示，降低了計算開銷和訓練複雜度。

這項研究為視覺自監督學習與多模態學習提供了新的思路，透過引入文本條件有效解決了掩碼預測中的不確定性問題，推動了語義豐富的視覺表示學習的發展。未來，TC-JEPA有望應用於更廣泛的領域，如自動駕駛、醫學影像分析和機器人視覺，其中對細粒度語義理解的需求至關重要。