CanLegalRAGBench:评估加拿大判例法上的检索增强生成
本文介绍了CanLegalRAGBench,一个基于真实查询和专家注释的加拿大法律QA基准,用于评估检索增强生成系统。研究表明,检索性能对设计选择敏感,开源嵌入模型与闭源模型竞争力相当,但自动评估存在局限性,生成答案常出现幻觉或偏离正确答案。该基准旨在推动法律RAG系统的改进。
随着大型语言模型(LLM)的快速发展,基于检索增强生成(RAG)的法律助手逐渐流行起来。然而,LLM的幻觉问题依然严峻,可能对司法公正构成威胁。现有的评估基准多依赖合成查询,缺乏真实法律场景,且加拿大法律体系在相关评估中代表性不足。为了解决这些问题,由Ethan Zhao等研究人员提出的CanLegalRAGBench应运而生。
CanLegalRAGBench是一个专注于加拿大判例法的问答基准,它基于真实的律师查询构建,并由法律专家对答案进行标注,确保答案紧密基于判例法。研究团队使用该基准对多种检索和生成模型进行了评估。结果显示,检索性能对嵌入模型的选择和检索策略非常敏感,而开源嵌入模型(如某些基于Transformer的模型)在性能上可以与闭源商业模型相媲美。
然而,评估也暴露了自动评估指标的一个局限性:它们往往会惩罚那些检索到额外相关文档的系统,即使这些文档对回答问题有帮助。此外,生成的答案经常与参考答案存在偏差,要么包含幻觉信息,要么内容过于冗长或与问题无关。据统计,8%到29%的生成声明无法从检索到的文档中得到支持。
尽管如此,CanLegalRAGBench为法律RAG系统的改进提供了一个重要的测试平台。研究团队希望该基准能够推动相关领域的发展,特别是在减少幻觉和提高答案可靠性方面。未来,该基准有望扩展到更多法域,并纳入更复杂的法律推理任务。该论文的作者包括Ethan Zhao等,于2026年5月28日提交至arXiv,属于计算与语言(cs.CL)领域。研究中使用的真实查询来源于律师日常工作,答案由具有加拿大法律背景的专家手工标注,确保了基准的真实性和权威性。评估涵盖了多种流行的嵌入模型和生成模型,包括开源和闭源选项,为法律科技从业者提供了有价值的参考。