2026-06-03 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

修復FOLIO和MALLS：驗證標註與LLM輔助框架以聚焦人工重新標註

對自然語言到一階邏輯（NL-to-FOL）基準FOLIO和MALLS的系統審計發現，約39%的FOLIO條目和36%的MALLS條目存在錯誤的FOL形式化。作者釋出了修正後的標註，並提出了一個基於LLM的框架，可將人工審查工作量減少70%以上，在審查不到24%的例項後即可達到90%的資料集準確率。

來源arXiv Computational Linguistics作者: Andrea Brunello, Cristian Curaba, Luca Geatti, Michele Mignani, Angelo Montanari, Nicola Saccomanno

自然語言到一階邏輯（NL-to-FOL）的準確翻譯是神經符號AI系統和自然語言推理（NLI）的基石，因此NL-to-FOL基準資料集的質量至關重要。然而，FOLIO和MALLS這兩個廣泛使用的資料集從未經過嚴格的審計。本研究首次對FOLIO的驗證集和MALLS的部分測試例項進行了系統的人工檢查，揭示出其中存在大量錯誤。

具體而言，FOLIO中約39%的條目和MALLS中約36%的條目的FOL形式化（即真實標籤）是錯誤的。此外，FOLIO中還有16.4%的NL句子存在歧義，8.4%的NLI標籤不正確。這些錯誤嚴重影響了模型評估的可靠性。為了糾正這些問題，研究者開發併發布了修正後的真實標籤。他們使用三個先進的大型語言模型（Gemma 4 31B-it、Qwen3-30B-A3B和GPT-4o-mini）在基準任務上進行測試，結果顯示，使用修正後的標籤，模型準確率提升了9到22個百分點，表明原始標註錯誤扭曲了模型的效能評估。

基於這些發現，研究者提出了一種基於LLM的框架來輔助人工審閱NL-to-FOL資料集。該框架透過識別最容易出錯的例項，引導審閱者重點關注這些條目。實驗表明，使用該框架後，僅需審查不到24%的例項即可達到90%的資料集準確率，而無指導的審查則需要審查超過70%的例項才能達到相同效果。研究者已公開了所有人工驗證的標註和框架程式碼，為NL-to-FOL領域提供了寶貴的資源。這項工作不僅提高了資料集的可靠性，也為未來高效、準確的標註流程奠定了基礎。