AI News HubLIVE
站内改写1 分鐘閱讀

預測與重構:自監督語言表示學習的聯合目標

本研究提出一種結合JEPA潛在空間預測損失與標準掩碼語言建模(MLM)的混合預訓練目標,旨在改進語言表示。實驗表明,該混合編碼器生成的嵌入更均勻、語義-詞彙平衡更優,但下游準確率與純MLM基線相似。

來源arXiv Computational Linguistics作者: Aimen Boukhari

自BERT以來,掩碼語言建模(MLM)一直是文本編碼器的主流預訓練目標,但它鼓勵表示強烈錨定於表層詞元身份而非深層語義結構。受聯合嵌入預測架構(JEPA)在視覺和音訊領域成功的啟發,本文提出了一種混合預訓練目標,該目標將JEPA風格的潛在空間預測損失與標準MLM目標結合在同一共享編碼器上。一個可學習的標量引數在訓練過程中持續平衡這兩個目標。

研究團隊在英文維基百科上預訓練了一個混合模型和一個純MLM基線,兩者使用完全相同的架構和計算預算(NVIDIA H100)。透過五個GLUE基準(SST-2、MRPC、MNLI、CoLA、STS-B)和四種池化策略的廣泛表示分析,他們發現混合編碼器生成的嵌入一致性顯著更高(均勻度低於-0.16,而MLM為-0.05),在最大池化下展現出更豐富的譜幾何,編碼了更少的表層詞彙資訊,並實現了更好的語義-詞彙平衡。儘管線性探針下游準確率相似,但幾何差異一致且顯著,這表明JEPA預測目標重塑了潛在空間,而標準準確率指標無法捕捉到這一點。

該論文由Aimen Boukhari撰寫,於2026年4月16日提交至arXiv,屬於計算與語言(cs.CL)和人工智慧(cs.AI)領域。論文共12頁,包含10張圖和11張表,程式碼已公開。研究團隊強調,這種混合目標不僅提高了嵌入的均勻性,還使得模型在語義表示上更加豐富,減少了表層詞彙資訊的依賴。未來工作可以探索混合目標在其他語言和更大規模模型上的效果,以及將其應用於更多下游任務。