修復FOLIO和MALLS:驗證標註與LLM輔助框架以聚焦人工重新標註
對自然語言到一階邏輯(NL-to-FOL)基準FOLIO和MALLS的系統審計發現,約39%的FOLIO條目和36%的MALLS條目存在錯誤的FOL形式化。作者釋出了修正後的標註,並提出了一個基於LLM的框架,可將人工審查工作量減少70%以上,在審查不到24%的例項後即可達到90%的資料集準確率。
自然語言到一階邏輯(NL-to-FOL)的準確翻譯是神經符號AI系統和自然語言推理(NLI)的基石,因此NL-to-FOL基準資料集的質量至關重要。然而,FOLIO和MALLS這兩個廣泛使用的資料集從未經過嚴格的審計。本研究首次對FOLIO的驗證集和MALLS的部分測試例項進行了系統的人工檢查,揭示出其中存在大量錯誤。
具體而言,FOLIO中約39%的條目和MALLS中約36%的條目的FOL形式化(即真實標籤)是錯誤的。此外,FOLIO中還有16.4%的NL句子存在歧義,8.4%的NLI標籤不正確。這些錯誤嚴重影響了模型評估的可靠性。為了糾正這些問題,研究者開發併發布了修正後的真實標籤。他們使用三個先進的大型語言模型(Gemma 4 31B-it、Qwen3-30B-A3B和GPT-4o-mini)在基準任務上進行測試,結果顯示,使用修正後的標籤,模型準確率提升了9到22個百分點,表明原始標註錯誤扭曲了模型的效能評估。
基於這些發現,研究者提出了一種基於LLM的框架來輔助人工審閱NL-to-FOL資料集。該框架透過識別最容易出錯的例項,引導審閱者重點關注這些條目。實驗表明,使用該框架後,僅需審查不到24%的例項即可達到90%的資料集準確率,而無指導的審查則需要審查超過70%的例項才能達到相同效果。研究者已公開了所有人工驗證的標註和框架程式碼,為NL-to-FOL領域提供了寶貴的資源。這項工作不僅提高了資料集的可靠性,也為未來高效、準確的標註流程奠定了基礎。