AI News HubLIVE
站内改写2 分で読了

CanLegalRAGBench: カナダ判例法における検索拡張生成の評価

本稿では、現実的な法的クエリと専門家による注釈付き回答に基づくカナダ法のQAベンチマーク「CanLegalRAGBench」を紹介する。評価の結果、検索性能は設計選択に敏感であり、オープンソースの埋め込みモデルはクローズドソースモデルと競合するが、自動評価には限界があり、生成された回答は幻覚や過剰な詳細を含むことが多い。このベンチマークは法的RAGシステムの改善を促進することを目的とする。

ソースarXiv Computational Linguistics著者: Ethan Zhao, Maksym Taranukhin, Wei Cui, Moira Aikenhead, Vered Shwartz

大規模言語モデル(LLM)の急速な発展に伴い、検索拡張生成(RAG)を活用した法律アシスタントが普及しつつある。しかし、LLMの幻覚問題は依然として深刻であり、司法の公正さを損なう可能性がある。既存の評価ベンチマークは合成クエリに依存しており、現実の法律シナリオを反映していない。さらに、カナダ法は既存の評価において十分に代表されていない。このギャップを埋めるため、Ethan Zhaoら研究者はCanLegalRAGBenchを開発した。

CanLegalRAGBenchは、カナダの判例法に基づく質問応答ベンチマークであり、実際の弁護士クエリに基づき、法律専門家が判例に根ざした回答を注釈付けしている。研究チームは、このベンチマークを使用して複数の検索・生成モデルを評価した。その結果、検索性能は埋め込みモデルの選択や検索戦略に敏感である一方、オープンソースの埋め込みモデル(例:Transformerベースのモデル)はクローズドソースの商業モデルと競合できることが示された。

しかし、評価は自動評価指標の限界も明らかにした。自動評価は、質問に役立つ追加の関連文書を取得したシステムを不当にペナルティする傾向がある。さらに、生成された回答はしばしば参照回答から乖離し、幻覚情報を含んだり、過度に詳細で無関係な内容を含む。統計によると、生成された主張の8%から29%は検索文書によって裏付けられていない。

それでも、CanLegalRAGBenchは法的RAGシステムの改善のための重要なテストベッドを提供する。研究チームは、このベンチマークが幻覚の低減や回答の信頼性向上など、関連分野の進展を促進することを期待している。将来的には、このベンチマークをより多くの法域に拡張し、より複雑な法的推論タスクを含めることが計画されている。本論文は2026年5月28日にarXivに提出され、計算と言語(cs.CL)分野に分類される。著者にはEthan Zhaoを含む5名が名を連ねており、現実的なクエリと専門家注釈に基づく信頼性の高いベンチマークを提供している。