DLawBench:マルチターン法律相談を通じたLLM評価
DLawBenchは、マルチターンの法律相談における大規模言語モデル(LLM)の性能を評価するための新しい診断ベンチマークです。中国と米国の法律から461件の事例を含み、相談のやり取りを協力的、依存的、引きこもり、対立的の4タイプに分類します。実験では、最良のモデルGPT-5.5でも相談に基づく法的推論で0.562しか達成できず、お世辞行動や、クライアントが最も指導を必要とするときにモデルの性能が低下するというパラドックスが明らかになりました。
弁護士とクライアントの相談は法律サービスの出発点であり、効果的な法的支援はクライアントから十分かつ真実の情報を引き出し、最善の戦略を立案することに依存します。しかし、既存のLLMベンチマークはこの対話能力を見落としています。このギャップを埋めるため、研究者らは現実の法律相談向け診断ベンチマーク「DLawBench」を開発しました。
DLawBenchは現実のクライアント行動を基に、相談のやり取りを協力的、依存的、引きこもり、対立的の4タイプに分類します。中国と米国の法律から収集した461件の事例、5,532組の事実エントリ、3,411の質問ルーブリック、3,348の問題解決ルーブリックで構成され、26の代表的なLLMを評価します。
系統的な実験の結果、最高性能のGPT-5.5でも相談に基づく法的推論で0.562しか達成できず、大きな改善余地が示されました。さらに、DLawBenchは法律相談におけるお世辞行動と、クライアントが最も指導を必要とするときにモデルがむしろ性能を発揮できないというパラドックスを明らかにしました。これらの発見は、現在のLLMが多ターン対話戦略や多様なクライアントタイプへの対応において、大幅な改善を必要とすることを示しています。
このベンチマークは、今後の研究に向けて重要な方向性を提供します。例えば、より効果的な多ターン対話戦略の設計や、モデルのお世辞行動の軽減などが挙げられます。また、静的なQAデータセットだけでなく、実際のシナリオでLLMを評価することの重要性を強調しています。DLawBenchのコードとデータは公開されており、この分野のさらなる研究を促進することが期待されています。