2026-06-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

CanLegalRAGBench：評估加拿大判例法上的檢索增強生成

本文介紹了CanLegalRAGBench，一個基於真實查詢和專家註釋的加拿大法律QA基準，用於評估檢索增強生成系統。研究表明，檢索性能對設計選擇敏感，開源嵌入模型與閉源模型競爭力相當，但自動評估存在侷限性，生成答案常出現幻覺或偏離正確答案。該基準旨在推動法律RAG系統的改進。

來源arXiv Computational Linguistics作者: Ethan Zhao, Maksym Taranukhin, Wei Cui, Moira Aikenhead, Vered Shwartz

隨着大型語言模型（LLM）的快速發展，基於檢索增強生成（RAG）的法律助手逐漸流行起來。然而，LLM的幻覺問題依然嚴峻，可能對司法公正構成威脅。現有的評估基準多依賴合成查詢，缺乏真實法律場景，且加拿大法律體系在相關評估中代表性不足。為了解決這些問題，由Ethan Zhao等研究人員提出的CanLegalRAGBench應運而生。

CanLegalRAGBench是一個專注於加拿大判例法的問答基準，它基於真實的律師查詢構建，並由法律專家對答案進行標註，確保答案緊密基於判例法。研究團隊使用該基準對多種檢索和生成模型進行了評估。結果顯示，檢索性能對嵌入模型的選擇和檢索策略非常敏感，而開源嵌入模型（如某些基於Transformer的模型）在性能上可以與閉源商業模型相媲美。

然而，評估也暴露了自動評估指標的一個侷限性：它們往往會懲罰那些檢索到額外相關文檔的系統，即使這些文檔對回答問題有幫助。此外，生成的答案經常與參考答案存在偏差，要麼包含幻覺信息，要麼內容過於冗長或與問題無關。據統計，8%到29%的生成聲明無法從檢索到的文檔中得到支持。

儘管如此，CanLegalRAGBench為法律RAG系統的改進提供了一個重要的測試平台。研究團隊希望該基準能夠推動相關領域的發展，特別是在減少幻覺和提高答案可靠性方面。未來，該基準有望擴展到更多法域，並納入更復雜的法律推理任務。該論文的作者包括Ethan Zhao等，於2026年5月28日提交至arXiv，屬於計算與語言（cs.CL）領域。研究中使用的真實查詢來源於律師日常工作，答案由具有加拿大法律背景的專家手工標註，確保了基準的真實性和權威性。評估涵蓋了多種流行的嵌入模型和生成模型，包括開源和閉源選項，為法律科技從業者提供了有價值的參考。