2026-06-30 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 17:11 UTC+9

現代BERTモデルの法領域適応

研究者らはModernBERTを米国裁判所のすべての判決意見でさらに事前学習し、法律領域における性能を大幅に向上させた。ModernBERTは元のBERTの約500倍のデータで事前学習されているが、領域適応による改善が確認された。ゼロからの事前学習は既存のチェックポイントからの継続事前学習に劣る。モデルは最大8,192トークンを処理可能で、法律テキストの埋め込みや高速再ランキングに利用できる。すべてのチェックポイントは公開されている。ICAIL 2026で発表予定。

ソースarXiv Computational Linguistics著者: Dominik Stammbach, Peter Henderson

arXivで発表された新しい研究は、現代のBERTモデルを法律領域に適応させる手法を探求している。Dominik Stammbach氏らによるこの研究では、ModernBERTを米国裁判所のすべての判決意見データで、マスク言語モデリング目的を使用してさらに事前学習した。ModernBERTは元のBERTの約500倍のデータで事前学習されているにもかかわらず、研究者らは法律領域での適応が有意な改善をもたらすことを発見した。すべての米国裁判所意見に関連するデータセットにおいて、領域適応後のモデルは元のModernBERTよりも優れた性能を示した。

さらに、ゼロから事前学習する戦略と、既存のチェックポイントから継続して事前学習する戦略を比較した結果、後者の方が優れていることがわかった。これは、大規模な事前学習済み重みを活用することの重要性を示している。適応後のモデルは最大8,192トークンの系列を処理可能であり、法律テキストの意味的な埋め込みを計算したり、特定のクエリに対して数百の法律テキストを迅速に再ランキングしたりする用途に使用できる。

すべてのモデルチェックポイントは公開されており、研究者らはこの取り組みが法律AI分野の強力なベースラインモデルを提供することを期待している。本論文はICAIL 2026（第21回国際人工知能と法律会議）に採択され、2026年6月9日から12日にシンガポールで発表される予定である。