AI News HubLIVE
站內改寫1 分鐘閱讀

現代BERT模型在法律領域的域適應

研究人員透過在美國法院意見資料上進一步預訓練ModernBERT,提升了其在法律領域的效能。實驗表明,儘管ModernBERT的預訓練資料量是原始BERT的500倍,但領域適應仍帶來顯著改進,且從零預訓練不如在現有檢查點上繼續預訓練。模型支援長達8192個token的序列,可用於法律文本的嵌入或排序。所有檢查點已公開。該成果將發表於ICAIL 2026。

來源arXiv Computational Linguistics作者: Dominik Stammbach, Peter Henderson

一篇發表於arXiv上的新研究探討了現代BERT模型在法律領域的域適應問題。該研究由Dominik Stammbach等人進行,將ModernBERT在全部美國法院意見資料上進行了進一步預訓練,採用掩碼語言建模目標。儘管ModernBERT的原始預訓練資料量已遠大於原始BERT(約500倍),研究人員發現,針對法律領域的進一步預訓練仍然能帶來顯著收益:在所有與美國法院意見相關的基準資料集上,領域適應後的模型均優於原始ModernBERT。

值得注意的是,研究還比較了從零開始預訓練與在現有檢查點上繼續預訓練兩種策略。結果顯示,從零預訓練無法達到後者同樣的效能水平,這強調了利用已有大規模預訓練權重的重要性。領域適應後的模型能夠處理長達8192個token的序列,並且可以用於計演算法律段落的語義嵌入,或對給定查詢快速重新排序數百個法律文本,極具實用價值。

所有模型檢查點已公開發布,研究者期望該工作能為法律人工智慧領域提供更強的基線模型。該論文已被ICAIL 2026(第21屆人工智慧與法律國際會議)接收,將於2026年6月9日至12日在新加坡舉行。