相続推論においてどのモデルが優れているか?
本論文は、2026年QIASアラビア・イスラム相続推論共有タスクへのPSLチームの参加を報告します。このタスクは、法的解釈、多段階推論、精密な数値計算を必要とする相続案件を解決する大規模言語モデルの能力を評価します。結果は、商用モデル(Gemini 2.5 Flashなど)が正しい相続人の識別、排除ルールの適用、推論の一貫性において優れている一方、オープンソースモデルは特に法的判断や分数の調整において不安定であることを示しました。
人工知能と法律推論の交差点において、最新の研究は商用およびオープンソースの大規模言語モデルがイスラム相続法の推論において顕著な性能差を示すことを明らかにしました。PSLチームの研究者は2026年のQIAS(アラビア・イスラム相続推論)共有タスクに参加し、アラビア・イスラム相続案件を処理するAIモデルの能力を評価しました。これらの案件は複雑な法的解釈、多段階推論、正確な数値計算を必要とし、例えば法定相続人の取り分の決定、排除ルールの適用、婚姻状況や性別、親族関係に基づく調整などが含まれ、モデルに厳しい課題を突きつけます。
研究チームは統一されたプロンプト戦略を用いて、商用モデル(GoogleのGemini 2.5 FlashやOpenAIのGPT-4oなど)と複数のオープンソースモデル(Llama-3-70BやMistral-7Bなど)を比較し、最小限のタスク固有適応での構造化法律推論の有効性を評価しました。実験は、単純な直系相続から複雑な多世代家族関係に至る100の実際の相続ケースからなるテストセットに基づいています。その結果、商用モデルは適格な相続人の識別、排除ルールの適用、推論ステップ間の一貫性の維持において優れた性能を示しました。特に、Gemini 2.5 Flashは平均相対誤差(MRE)0.989を達成し、完璧に近い推論を実現しました。
対照的に、オープンソースモデルは依存的な法的判断や分数シェアの調整を伴うケースで特に不安定性を示しました。例えば、配偶者、子供、両親の取り分を同時に考慮する必要がある複雑なケースでは、オープンソースモデルのエラー率は商用モデルの三倍以上に達しました。この発見は、高度な信頼性と精度を必要とする法律アプリケーションにおける商用モデルの潜在的な優位性を強調しています。しかし、研究はオープンソースモデルの低い信頼性が、訓練データにおける特定分野の法律テキストの不足や、複雑なイスラム相続法ルールをカバーするための命令チューニングの不十分さに起因する可能性があることも指摘しています。
この研究の実際的な意義は広範です。法技術分野では、モデル選定が推論コスト、製品能力、評価基準に直接影響します。商用モデルは性能が優れているものの、APIコストやベンダーロックインのリスクが高くなる可能性があります。一方、オープンソースモデルはローカル展開の利点を提供しますが、追加のドメイン知識注入とターゲットを絞った微調整が必要です。さらに、この研究は現在のLLMの形式化された法律推論における限界を明らかにしました。最良のモデルでも、極めて複雑な分配ルールに対しては誤りを犯す可能性があります。
全体として、PSLチームの研究は、特にイスラム相続法のような特定領域において、法律システムへのAI導入の将来に重要な指針を提供します。モデル能力の継続的な進歩に伴い、ドメイン固有データと推論チェーン検証技術を組み合わせることで、商用モデルとオープンソースモデルのギャップを縮小できる可能性があります。本論文はarXiv(番号2606.13751)で公開されており、今後の研究の基礎を築いています。