2026-06-15站内改写1 分钟阅读更新: 2026-06-15

QIAS 2026：伊斯兰继承推理共享任务概述

本文概述了QIAS 2026共享任务，该任务旨在评估大语言模型在伊斯兰继承领域的复杂推理能力。任务基于MAWARITH基准数据集（12,500个阿拉伯语继承案例），共有16个团队参与，采用了提示、检索增强生成和微调等方法。结果表明，当前模型在法律解释和结构化数值推理方面仍面临巨大挑战。

来源arXiv Computational Linguistics作者: Abdessalam Bouchekif, Somaya Eltanbouly, Samer Rashwani, Shahd Gaben, Mutaz Al-Khatib, Heba Sbahi, Emad Mohamed, Mohammed Ghaly

2026年6月，作为OSACT7研讨会的一部分并与LREC 2026联合举办，QIAS 2026共享任务正式启动。该任务旨在评估大语言模型（LLM）在伊斯兰继承法这一宗教法律领域的复杂推理能力。与传统的问答基准不同，QIAS 2026要求系统从自然语言案例描述出发，完成完整的继承计算流程——从识别合法继承人到为每位受益人分配正确份额。

任务基于MAWARITH基准数据集，该数据集包含12,500个阿拉伯语继承案例，每个案例都标注了中间推理步骤和最终答案。评估采用MIR-E（多步推理评估指标），该指标衡量系统在继承推理主要阶段的性能。共有16个团队提交了系统，探索了多种方法，包括提示工程、检索增强生成（RAG）和模型微调。

结果显示，伊斯兰继承推理对当前语言模型而言仍然是一个极具挑战的基准，尤其是在需要精确法律解释和结构化数值推理的阶段。这一任务突显了在专业领域应用中，LLM需要进一步提升其逻辑推理和领域知识理解能力。

此外，任务组织者提供了详细的评估框架，包括数据集划分、评估指标和基线结果。参与团队来自多个国家和机构，展示了全球学术界对这项任务的兴趣。未来，这一基准有望推动更专业、更鲁棒的推理模型的发展。