预测与重构:自监督语言表示学习的联合目标
本研究提出一种结合JEPA潜在空间预测损失与标准掩码语言建模(MLM)的混合预训练目标,旨在改进语言表示。实验表明,该混合编码器生成的嵌入更均匀、语义-词汇平衡更优,但下游准确率与纯MLM基线相似。
自BERT以来,掩码语言建模(MLM)一直是文本编码器的主流预训练目标,但它鼓励表示强烈锚定于表层词元身份而非深层语义结构。受联合嵌入预测架构(JEPA)在视觉和音频领域成功的启发,本文提出了一种混合预训练目标,该目标将JEPA风格的潜在空间预测损失与标准MLM目标结合在同一共享编码器上。一个可学习的标量参数在训练过程中持续平衡这两个目标。
研究团队在英文维基百科上预训练了一个混合模型和一个纯MLM基线,两者使用完全相同的架构和计算预算(NVIDIA H100)。通过五个GLUE基准(SST-2、MRPC、MNLI、CoLA、STS-B)和四种池化策略的广泛表示分析,他们发现混合编码器生成的嵌入一致性显著更高(均匀度低于-0.16,而MLM为-0.05),在最大池化下展现出更丰富的谱几何,编码了更少的表层词汇信息,并实现了更好的语义-词汇平衡。尽管线性探针下游准确率相似,但几何差异一致且显著,这表明JEPA预测目标重塑了潜在空间,而标准准确率指标无法捕捉到这一点。
该论文由Aimen Boukhari撰写,于2026年4月16日提交至arXiv,属于计算与语言(cs.CL)和人工智能(cs.AI)领域。论文共12页,包含10张图和11张表,代码已公开。研究团队强调,这种混合目标不仅提高了嵌入的均匀性,还使得模型在语义表示上更加丰富,减少了表层词汇信息的依赖。未来工作可以探索混合目标在其他语言和更大规模模型上的效果,以及将其应用于更多下游任务。