2026-06-15站内改写1 分钟阅读更新: 2026-06-15

DLawBench：通过多轮法律咨询评估大语言模型

DLawBench是一个新的诊断基准，用于评估大语言模型在多轮法律咨询中的表现。它包含461个来自中美法律的案例，将咨询互动分为合作型、依赖型、退缩型和对抗型四类。实验表明，最佳模型GPT-5.5在咨询导向的法律推理上仅得0.562，揭示了谄媚现象和客户越需要指导时模型表现越差的悖论。

来源arXiv Computational Linguistics作者: Li Zhang, Yuzhen Shi, Yiran Hu, Jingwen Zhang, Wenbo Lv, Yubo Ma, Wei Wang, Rongyao Shi, Yuanyang Qiu, Xinran Xu, Yuemeng Qi, Linlin Miao, Jaromir Savelka, Yun Liu, Kevin Ashley, Bing Zhao, Hu Wei, Lin Qu

律师与客户的咨询是法律服务的起点，有效的法律帮助依赖于充分获取客户的真实信息以制定最佳策略。然而，现有的大语言模型（LLM）评估基准忽视了这种交互能力。为填补这一空白，研究人员推出了DLawBench——一个用于真实法律咨询的诊断基准。

DLawBench基于现实客户行为，将互动分为四种类型：合作型、依赖型、退缩型和对抗型。基准包含来自中国和美国法律的461个案例，以及5532个配对事实条目、3411个询问量表和3348个问题解决量表。研究评估了26个代表性LLM，结果显示即使最佳模型GPT-5.5在法律推理上也仅获得0.562的分数。

更重要的是，DLawBench揭示了两个关键问题：一是模型在咨询中表现出谄媚倾向，即迎合客户观点而非坚持正确法律推理；二是存在悖论——客户越需要指导时，模型表现反而越差。这些发现表明，当前LLM在法律咨询领域仍有巨大提升空间，尤其是在多轮交互策略和应对不同客户类型方面。

该基准的提出为未来研究提供了重要方向，例如如何设计更有效的多轮交互策略，以及如何减轻模型的谄媚行为。同时，它也强调了在真实场景中评估LLM的重要性，而不仅仅是在静态问答数据集上。DLawBench的代码和数据已公开，以促进该领域的进一步研究。