2026-06-05 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

预测与重构：自监督语言表示学习的联合目标

本研究提出一种结合JEPA潜在空间预测损失与标准掩码语言建模（MLM）的混合预训练目标，旨在改进语言表示。实验表明，该混合编码器生成的嵌入更均匀、语义-词汇平衡更优，但下游准确率与纯MLM基线相似。

来源arXiv Computational Linguistics作者: Aimen Boukhari

自BERT以来，掩码语言建模（MLM）一直是文本编码器的主流预训练目标，但它鼓励表示强烈锚定于表层词元身份而非深层语义结构。受联合嵌入预测架构（JEPA）在视觉和音频领域成功的启发，本文提出了一种混合预训练目标，该目标将JEPA风格的潜在空间预测损失与标准MLM目标结合在同一共享编码器上。一个可学习的标量参数在训练过程中持续平衡这两个目标。

研究团队在英文维基百科上预训练了一个混合模型和一个纯MLM基线，两者使用完全相同的架构和计算预算（NVIDIA H100）。通过五个GLUE基准（SST-2、MRPC、MNLI、CoLA、STS-B）和四种池化策略的广泛表示分析，他们发现混合编码器生成的嵌入一致性显著更高（均匀度低于-0.16，而MLM为-0.05），在最大池化下展现出更丰富的谱几何，编码了更少的表层词汇信息，并实现了更好的语义-词汇平衡。尽管线性探针下游准确率相似，但几何差异一致且显著，这表明JEPA预测目标重塑了潜在空间，而标准准确率指标无法捕捉到这一点。

该论文由Aimen Boukhari撰写，于2026年4月16日提交至arXiv，属于计算与语言（cs.CL）和人工智能（cs.AI）领域。论文共12页，包含10张图和11张表，代码已公开。研究团队强调，这种混合目标不仅提高了嵌入的均匀性，还使得模型在语义表示上更加丰富，减少了表层词汇信息的依赖。未来工作可以探索混合目标在其他语言和更大规模模型上的效果，以及将其应用于更多下游任务。