QIAS 2026:イスラム相続推論共有タスクの概要
本論文は、イスラム相続推論における大規模言語モデルの性能を評価するQIAS 2026共有タスクの概要を提供する。タスクは12,500件のアラビア語相続ケースからなるMAWARITHベンチマークに基づき、16チームがプロンプティング、RAG、ファインチューニングなどの手法を試みた。結果は、モデルが法的解釈と数値推論に苦戦することを示している。
2026年6月、OSACT7ワークショップの一部としてLREC 2026と共同開催されたQIAS 2026共有タスクが開始されました。このタスクは、イスラム相続法という宗教的・法的領域における大規模言語モデル(LLM)の複雑な推論能力を評価するために設計されました。従来の質問応答ベンチマークとは異なり、QIAS 2026は自然言語の事例から完全な相続計算プロセス(適格な相続人の特定から各受益者への正しい取り分の割り当てまで)をシステムに要求します。
タスクはMAWARITHベンチマークデータセットに基づいています。このデータセットは12,500件のアラビア語相続ケースからなり、各ケースには中間推論ステップと最終回答が注釈されています。評価にはMIR-E(マルチステップ推論評価指標)が使用され、相続推論の主要段階におけるシステムのパフォーマンスを測定します。合計16チームがシステムを提出し、プロンプティング、検索拡張生成(RAG)、モデルのファインチューニングなど、さまざまなアプローチを試みました。
結果は、イスラム相続推論が現在の言語モデルにとって非常に困難なベンチマークであることを示しています。特に、正確な法的解釈と構造化された数値推論を必要とする段階でその傾向が顕著です。このタスクは、専門領域におけるLLMの論理的推論とドメイン知識の理解をさらに向上させる必要性を浮き彫りにしています。
さらに、タスク主催者はデータセットの分割、評価指標、ベースライン結果を含む詳細な評価フレームワークを提供しました。参加チームは複数の国や機関にわたり、このタスクに対する国際的な学術界の関心を示しています。将来的には、このベンチマークがより専門的で堅牢な推論モデルの開発を促進することが期待されます。