AI News HubLIVE
站内改写2 分鐘閱讀

哪些模型在繼承推理中表現更好?

本研究介紹了PSL團隊在2026年QIAS阿拉伯伊斯蘭繼承推理共享任務中的參與情況。該任務評估大型語言模型解決涉及法律解釋、多步推理和精確數值計算的繼承案件的能力。結果顯示,商業模型(如Gemini 2.5 Flash)在識別合格繼承人、應用排除規則和保持推理一致性方面表現更佳,而開源模型在依賴法律決策和分數份額調整的情況下穩定性較差。

來源arXiv Computational Linguistics作者: Mohammed Amine Mouhoub, Chahinez Bouchekif

在人工智慧與法律推理的交匯領域,最新研究揭示了商業與開源大語言模型在伊斯蘭繼承法推理中的顯著效能差異。來自PSL團隊的研究人員參與了2026年QIAS(阿拉伯伊斯蘭繼承推理)共享任務,該任務專門評估AI模型處理阿拉伯伊斯蘭繼承案件的能力。這些案件涉及複雜的法律解釋、多步推理和精確的數值計算,例如確定法定繼承人份額、應用排除規則以及根據婚姻狀況、性別和親屬關係調整分配比例,對模型提出了嚴峻挑戰。

研究團隊採用統一的提示策略,對商業模型(如Google的Gemini 2.5 Flash和OpenAI的GPT-4o)與多個開源模型(如Llama-3-70B和Mistral-7B)進行了對比測試,以評估它們在最小任務特定適配下的結構化法律推理能力。實驗基於一個包含100個真實繼承案例的測試集,涵蓋從簡單直系繼承到複雜多級家庭關係的場景。結果顯示,商業模型在識別合格繼承人、應用排除規則以及保持推理步驟一致性方面表現卓越。值得注意的是,Gemini 2.5 Flash在所有模型中脫穎而出,實現了0.989的平均相對誤差(MRE),接近完美推理。

相比之下,開源模型在涉及依賴法律決策和分數份額調整的案件中表現出明顯的不穩定性。例如,在需要同時考慮配偶、子女和父母份額的複雜案件中,開源模型的錯誤率高出商業模型三倍以上。這一發現強調了商業模型在需要高度可靠性和精確性的法律應用中的潛在優勢。然而,研究也指出,開源模型的較低可靠性可能源於訓練資料中缺乏特定領域的法律文本,以及指令微調未能充分覆蓋複雜的伊斯蘭繼承法規則。

該研究的實際意義深遠。在法律科技領域,模型選擇直接影響推理成本、產品能力和評測基準。商業模型雖然效能更優,但可能存在更高的API成本和供應商鎖定風險;開源模型則提供了本地化部署的優勢,但需要額外的領域知識注入和針對性微調。此外,研究還揭示了當前LLM在形式化法律推理中的侷限性:即使是最佳模型,在面對極端複雜的分娩規則時仍可能出錯。

總體而言,PSL團隊的工作為未來在法律領域部署AI系統提供了重要參考,特別是在伊斯蘭繼承法這樣的特定領域。隨著模型能力的持續進步,結合領域專用資料和推理鏈驗證技術,有望縮小商業與開源模型之間的差距。該論文已發表於arXiv,編號2606.13751,為後續研究奠定了紮實的基礎。