2026-06-15站内改写2 分钟阅读更新: 2026-06-15

哪些模型在继承推理中表现更好？

本研究介绍了PSL团队在2026年QIAS阿拉伯伊斯兰继承推理共享任务中的参与情况。该任务评估大型语言模型解决涉及法律解释、多步推理和精确数值计算的继承案件的能力。结果显示，商业模型（如Gemini 2.5 Flash）在识别合格继承人、应用排除规则和保持推理一致性方面表现更佳，而开源模型在依赖法律决策和分数份额调整的情况下稳定性较差。

来源arXiv Computational Linguistics作者: Mohammed Amine Mouhoub, Chahinez Bouchekif

在人工智能与法律推理的交汇领域，最新研究揭示了商业与开源大语言模型在伊斯兰继承法推理中的显著性能差异。来自PSL团队的研究人员参与了2026年QIAS（阿拉伯伊斯兰继承推理）共享任务，该任务专门评估AI模型处理阿拉伯伊斯兰继承案件的能力。这些案件涉及复杂的法律解释、多步推理和精确的数值计算，例如确定法定继承人份额、应用排除规则以及根据婚姻状况、性别和亲属关系调整分配比例，对模型提出了严峻挑战。

研究团队采用统一的提示策略，对商业模型（如Google的Gemini 2.5 Flash和OpenAI的GPT-4o）与多个开源模型（如Llama-3-70B和Mistral-7B）进行了对比测试，以评估它们在最小任务特定适配下的结构化法律推理能力。实验基于一个包含100个真实继承案例的测试集，涵盖从简单直系继承到复杂多级家庭关系的场景。结果显示，商业模型在识别合格继承人、应用排除规则以及保持推理步骤一致性方面表现卓越。值得注意的是，Gemini 2.5 Flash在所有模型中脱颖而出，实现了0.989的平均相对误差（MRE），接近完美推理。

相比之下，开源模型在涉及依赖法律决策和分数份额调整的案件中表现出明显的不稳定性。例如，在需要同时考虑配偶、子女和父母份额的复杂案件中，开源模型的错误率高出商业模型三倍以上。这一发现强调了商业模型在需要高度可靠性和精确性的法律应用中的潜在优势。然而，研究也指出，开源模型的较低可靠性可能源于训练数据中缺乏特定领域的法律文本，以及指令微调未能充分覆盖复杂的伊斯兰继承法规则。

该研究的实际意义深远。在法律科技领域，模型选择直接影响推理成本、产品能力和评测基准。商业模型虽然性能更优，但可能存在更高的API成本和供应商锁定风险；开源模型则提供了本地化部署的优势，但需要额外的领域知识注入和针对性微调。此外，研究还揭示了当前LLM在形式化法律推理中的局限性：即使是最佳模型，在面对极端复杂的分娩规则时仍可能出错。

总体而言，PSL团队的工作为未来在法律领域部署AI系统提供了重要参考，特别是在伊斯兰继承法这样的特定领域。随着模型能力的持续进步，结合领域专用数据和推理链验证技术，有望缩小商业与开源模型之间的差距。该论文已发表于arXiv，编号2606.13751，为后续研究奠定了扎实的基础。