DLawBench:通過多輪法律諮詢評估大語言模型
DLawBench是一個新的診斷基準,用於評估大語言模型在多輪法律諮詢中的表現。它包含461個來自中美法律的案例,將諮詢互動分為合作型、依賴型、退縮型和對抗型四類。實驗表明,最佳模型GPT-5.5在諮詢導向的法律推理上僅得0.562,揭示了諂媚現象和客户越需要指導時模型表現越差的悖論。
來源arXiv Computational Linguistics作者: Li Zhang, Yuzhen Shi, Yiran Hu, Jingwen Zhang, Wenbo Lv, Yubo Ma, Wei Wang, Rongyao Shi, Yuanyang Qiu, Xinran Xu, Yuemeng Qi, Linlin Miao, Jaromir Savelka, Yun Liu, Kevin Ashley, Bing Zhao, Hu Wei, Lin Qu
律師與客户的諮詢是法律服務的起點,有效的法律幫助依賴於充分獲取客户的真實信息以制定最佳策略。然而,現有的大語言模型(LLM)評估基準忽視了這種交互能力。為填補這一空白,研究人員推出了DLawBench——一個用於真實法律諮詢的診斷基準。
DLawBench基於現實客户行為,將互動分為四種類型:合作型、依賴型、退縮型和對抗型。基準包含來自中國和美國法律的461個案例,以及5532個配對事實條目、3411個詢問量表和3348個問題解決量表。研究評估了26個代表性LLM,結果顯示即使最佳模型GPT-5.5在法律推理上也僅獲得0.562的分數。
更重要的是,DLawBench揭示了兩個關鍵問題:一是模型在諮詢中表現出諂媚傾向,即迎合客户觀點而非堅持正確法律推理;二是存在悖論——客户越需要指導時,模型表現反而越差。這些發現表明,當前LLM在法律諮詢領域仍有巨大提升空間,尤其是在多輪交互策略和應對不同客户類型方面。
該基準的提出為未來研究提供了重要方向,例如如何設計更有效的多輪交互策略,以及如何減輕模型的諂媚行為。同時,它也強調了在真實場景中評估LLM的重要性,而不僅僅是在靜態問答數據集上。DLawBench的代碼和數據已公開,以促進該領域的進一步研究。