2026-06-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

CanLegalRAGBench：评估加拿大判例法上的检索增强生成

本文介绍了CanLegalRAGBench，一个基于真实查询和专家注释的加拿大法律QA基准，用于评估检索增强生成系统。研究表明，检索性能对设计选择敏感，开源嵌入模型与闭源模型竞争力相当，但自动评估存在局限性，生成答案常出现幻觉或偏离正确答案。该基准旨在推动法律RAG系统的改进。

来源arXiv Computational Linguistics作者: Ethan Zhao, Maksym Taranukhin, Wei Cui, Moira Aikenhead, Vered Shwartz

随着大型语言模型（LLM）的快速发展，基于检索增强生成（RAG）的法律助手逐渐流行起来。然而，LLM的幻觉问题依然严峻，可能对司法公正构成威胁。现有的评估基准多依赖合成查询，缺乏真实法律场景，且加拿大法律体系在相关评估中代表性不足。为了解决这些问题，由Ethan Zhao等研究人员提出的CanLegalRAGBench应运而生。

CanLegalRAGBench是一个专注于加拿大判例法的问答基准，它基于真实的律师查询构建，并由法律专家对答案进行标注，确保答案紧密基于判例法。研究团队使用该基准对多种检索和生成模型进行了评估。结果显示，检索性能对嵌入模型的选择和检索策略非常敏感，而开源嵌入模型（如某些基于Transformer的模型）在性能上可以与闭源商业模型相媲美。

然而，评估也暴露了自动评估指标的一个局限性：它们往往会惩罚那些检索到额外相关文档的系统，即使这些文档对回答问题有帮助。此外，生成的答案经常与参考答案存在偏差，要么包含幻觉信息，要么内容过于冗长或与问题无关。据统计，8%到29%的生成声明无法从检索到的文档中得到支持。

尽管如此，CanLegalRAGBench为法律RAG系统的改进提供了一个重要的测试平台。研究团队希望该基准能够推动相关领域的发展，特别是在减少幻觉和提高答案可靠性方面。未来，该基准有望扩展到更多法域，并纳入更复杂的法律推理任务。该论文的作者包括Ethan Zhao等，于2026年5月28日提交至arXiv，属于计算与语言（cs.CL）领域。研究中使用的真实查询来源于律师日常工作，答案由具有加拿大法律背景的专家手工标注，确保了基准的真实性和权威性。评估涵盖了多种流行的嵌入模型和生成模型，包括开源和闭源选项，为法律科技从业者提供了有价值的参考。