2026-06-05 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

予測と再構築：自己教師あり言語表現学習のための共同目的

この研究は、JEPA潜在空間予測損失と標準的なマスク言語モデリング（MLM）を組み合わせたハイブリッド事前学習目的を提案し、言語表現の改善を目指します。実験では、ハイブリッドエンコーダがより均一な埋め込みと優れた意味-語彙バランスを生成する一方、下流の精度は純粋なMLMと同等であることが示されました。

ソースarXiv Computational Linguistics著者: Aimen Boukhari

BERT以来、マスク言語モデリング（MLM）はテキストエンコーダの主要な事前学習目的でしたが、表層的なトークン同一性に強く固定された表現を促進し、深い意味構造を捉えることができませんでした。視覚や音声における結合埋め込み予測アーキテクチャ（JEPA）の成功に触発され、本論文では、単一の共有エンコーダ上でJEPAスタイルの潜在空間予測損失と標準的なMLM目的を組み合わせたハイブリッド事前学習目的を提案します。学習可能なスカラーパラメータがトレーニング中に二つの目的を連続的にバランスします。

研究チームは、同一のアーキテクチャと計算予算（NVIDIA H100）を使用して、英語版Wikipediaでハイブリッドモデルと純粋なMLMベースラインを事前学習しました。5つのGLUEベンチマーク（SST-2、MRPC、MNLI、CoLA、STS-B）と4つのプーリング戦略を用いた広範な表現分析により、ハイブリッドエンコーダは有意に一貫性のある埋め込み（均一性は-0.16未満、MLMは-0.05）を生成し、最大プーリング下で豊かなスペクトル幾何学を示し、表層的な語彙情報をより少なく符号化し、より良い意味-語彙バランスを達成することが明らかになりました。線形プローブの下流精度は類似しているものの、幾何学的差異は一貫して有意であり、JEPA予測目的が潜在空間を再形成することを示唆しており、標準的な精度指標だけでは捉えられません。

この論文はAimen Boukhariによって執筆され、2026年4月16日にarXivに提出されました。分野は計算と言語（cs.CL）および人工知能（cs.AI）です。論文は12ページ、10図、11表からなり、コードは公開されています。研究チームは、このハイブリッド目的が埋め込みの均一性を向上させるだけでなく、モデルの意味表現を豊かにし、表層的な語彙情報への依存を減らすことを強調しています。今後の研究では、このハイブリッド目的を他の言語やより大規模なモデルで探求し、さらに多くの下流タスクに適用することが期待されます。