2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 16:11 UTC+8

现代BERT模型在法律领域的域适应

研究人员通过在美国法院意见数据上进一步预训练ModernBERT，提升了其在法律领域的性能。实验表明，尽管ModernBERT的预训练数据量是原始BERT的500倍，但领域适应仍带来显著改进，且从零预训练不如在现有检查点上继续预训练。模型支持长达8192个token的序列，可用于法律文本的嵌入或排序。所有检查点已公开。该成果将发表于ICAIL 2026。

来源arXiv Computational Linguistics作者: Dominik Stammbach, Peter Henderson

一篇发表于arXiv上的新研究探讨了现代BERT模型在法律领域的域适应问题。该研究由Dominik Stammbach等人进行，将ModernBERT在全部美国法院意见数据上进行了进一步预训练，采用掩码语言建模目标。尽管ModernBERT的原始预训练数据量已远大于原始BERT（约500倍），研究人员发现，针对法律领域的进一步预训练仍然能带来显著收益：在所有与美国法院意见相关的基准数据集上，领域适应后的模型均优于原始ModernBERT。

值得注意的是，研究还比较了从零开始预训练与在现有检查点上继续预训练两种策略。结果显示，从零预训练无法达到后者同样的性能水平，这强调了利用已有大规模预训练权重的重要性。领域适应后的模型能够处理长达8192个token的序列，并且可以用于计算法律段落的语义嵌入，或对给定查询快速重新排序数百个法律文本，极具实用价值。

所有模型检查点已公开发布，研究者期望该工作能为法律人工智能领域提供更强的基线模型。该论文已被ICAIL 2026（第21届人工智能与法律国际会议）接收，将于2026年6月9日至12日在新加坡举行。