AI News HubLIVE
站内改写1 分钟阅读

QIAS 2026:伊斯兰继承推理共享任务概述

本文概述了QIAS 2026共享任务,该任务旨在评估大语言模型在伊斯兰继承领域的复杂推理能力。任务基于MAWARITH基准数据集(12,500个阿拉伯语继承案例),共有16个团队参与,采用了提示、检索增强生成和微调等方法。结果表明,当前模型在法律解释和结构化数值推理方面仍面临巨大挑战。

来源arXiv Computational Linguistics作者: Abdessalam Bouchekif, Somaya Eltanbouly, Samer Rashwani, Shahd Gaben, Mutaz Al-Khatib, Heba Sbahi, Emad Mohamed, Mohammed Ghaly

2026年6月,作为OSACT7研讨会的一部分并与LREC 2026联合举办,QIAS 2026共享任务正式启动。该任务旨在评估大语言模型(LLM)在伊斯兰继承法这一宗教法律领域的复杂推理能力。与传统的问答基准不同,QIAS 2026要求系统从自然语言案例描述出发,完成完整的继承计算流程——从识别合法继承人到为每位受益人分配正确份额。

任务基于MAWARITH基准数据集,该数据集包含12,500个阿拉伯语继承案例,每个案例都标注了中间推理步骤和最终答案。评估采用MIR-E(多步推理评估指标),该指标衡量系统在继承推理主要阶段的性能。共有16个团队提交了系统,探索了多种方法,包括提示工程、检索增强生成(RAG)和模型微调。

结果显示,伊斯兰继承推理对当前语言模型而言仍然是一个极具挑战的基准,尤其是在需要精确法律解释和结构化数值推理的阶段。这一任务突显了在专业领域应用中,LLM需要进一步提升其逻辑推理和领域知识理解能力。

此外,任务组织者提供了详细的评估框架,包括数据集划分、评估指标和基线结果。参与团队来自多个国家和机构,展示了全球学术界对这项任务的兴趣。未来,这一基准有望推动更专业、更鲁棒的推理模型的发展。