AI News HubLIVE
站内改写1 分鐘閱讀

CanLegalRAGBench:評估加拿大判例法上的檢索增強生成

本文介紹了CanLegalRAGBench,一個基於真實查詢和專家註釋的加拿大法律QA基準,用於評估檢索增強生成系統。研究表明,檢索性能對設計選擇敏感,開源嵌入模型與閉源模型競爭力相當,但自動評估存在侷限性,生成答案常出現幻覺或偏離正確答案。該基準旨在推動法律RAG系統的改進。

來源arXiv Computational Linguistics作者: Ethan Zhao, Maksym Taranukhin, Wei Cui, Moira Aikenhead, Vered Shwartz

隨着大型語言模型(LLM)的快速發展,基於檢索增強生成(RAG)的法律助手逐漸流行起來。然而,LLM的幻覺問題依然嚴峻,可能對司法公正構成威脅。現有的評估基準多依賴合成查詢,缺乏真實法律場景,且加拿大法律體系在相關評估中代表性不足。為了解決這些問題,由Ethan Zhao等研究人員提出的CanLegalRAGBench應運而生。

CanLegalRAGBench是一個專注於加拿大判例法的問答基準,它基於真實的律師查詢構建,並由法律專家對答案進行標註,確保答案緊密基於判例法。研究團隊使用該基準對多種檢索和生成模型進行了評估。結果顯示,檢索性能對嵌入模型的選擇和檢索策略非常敏感,而開源嵌入模型(如某些基於Transformer的模型)在性能上可以與閉源商業模型相媲美。

然而,評估也暴露了自動評估指標的一個侷限性:它們往往會懲罰那些檢索到額外相關文檔的系統,即使這些文檔對回答問題有幫助。此外,生成的答案經常與參考答案存在偏差,要麼包含幻覺信息,要麼內容過於冗長或與問題無關。據統計,8%到29%的生成聲明無法從檢索到的文檔中得到支持。

儘管如此,CanLegalRAGBench為法律RAG系統的改進提供了一個重要的測試平台。研究團隊希望該基準能夠推動相關領域的發展,特別是在減少幻覺和提高答案可靠性方面。未來,該基準有望擴展到更多法域,並納入更復雜的法律推理任務。該論文的作者包括Ethan Zhao等,於2026年5月28日提交至arXiv,屬於計算與語言(cs.CL)領域。研究中使用的真實查詢來源於律師日常工作,答案由具有加拿大法律背景的專家手工標註,確保了基準的真實性和權威性。評估涵蓋了多種流行的嵌入模型和生成模型,包括開源和閉源選項,為法律科技從業者提供了有價值的參考。