2026-06-05 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

預測與重構：自監督語言表示學習的聯合目標

本研究提出一種結合JEPA潛在空間預測損失與標準掩碼語言建模（MLM）的混合預訓練目標，旨在改進語言表示。實驗表明，該混合編碼器生成的嵌入更均勻、語義-詞彙平衡更優，但下游準確率與純MLM基線相似。

來源arXiv Computational Linguistics作者: Aimen Boukhari

自BERT以來，掩碼語言建模（MLM）一直是文本編碼器的主流預訓練目標，但它鼓勵表示強烈錨定於表層詞元身份而非深層語義結構。受聯合嵌入預測架構（JEPA）在視覺和音訊領域成功的啟發，本文提出了一種混合預訓練目標，該目標將JEPA風格的潛在空間預測損失與標準MLM目標結合在同一共享編碼器上。一個可學習的標量引數在訓練過程中持續平衡這兩個目標。

研究團隊在英文維基百科上預訓練了一個混合模型和一個純MLM基線，兩者使用完全相同的架構和計算預算（NVIDIA H100）。透過五個GLUE基準（SST-2、MRPC、MNLI、CoLA、STS-B）和四種池化策略的廣泛表示分析，他們發現混合編碼器生成的嵌入一致性顯著更高（均勻度低於-0.16，而MLM為-0.05），在最大池化下展現出更豐富的譜幾何，編碼了更少的表層詞彙資訊，並實現了更好的語義-詞彙平衡。儘管線性探針下游準確率相似，但幾何差異一致且顯著，這表明JEPA預測目標重塑了潛在空間，而標準準確率指標無法捕捉到這一點。

該論文由Aimen Boukhari撰寫，於2026年4月16日提交至arXiv，屬於計算與語言（cs.CL）和人工智慧（cs.AI）領域。論文共12頁，包含10張圖和11張表，程式碼已公開。研究團隊強調，這種混合目標不僅提高了嵌入的均勻性，還使得模型在語義表示上更加豐富，減少了表層詞彙資訊的依賴。未來工作可以探索混合目標在其他語言和更大規模模型上的效果，以及將其應用於更多下游任務。