修复FOLIO和MALLS:验证标注与LLM辅助框架以聚焦人工重新标注
对自然语言到一阶逻辑(NL-to-FOL)基准FOLIO和MALLS的系统审计发现,约39%的FOLIO条目和36%的MALLS条目存在错误的FOL形式化。作者发布了修正后的标注,并提出了一个基于LLM的框架,可将人工审查工作量减少70%以上,在审查不到24%的实例后即可达到90%的数据集准确率。
自然语言到一阶逻辑(NL-to-FOL)的准确翻译是神经符号AI系统和自然语言推理(NLI)的基石,因此NL-to-FOL基准数据集的质量至关重要。然而,FOLIO和MALLS这两个广泛使用的数据集从未经过严格的审计。本研究首次对FOLIO的验证集和MALLS的部分测试实例进行了系统的人工检查,揭示出其中存在大量错误。
具体而言,FOLIO中约39%的条目和MALLS中约36%的条目的FOL形式化(即真实标签)是错误的。此外,FOLIO中还有16.4%的NL句子存在歧义,8.4%的NLI标签不正确。这些错误严重影响了模型评估的可靠性。为了纠正这些问题,研究者开发并发布了修正后的真实标签。他们使用三个先进的大型语言模型(Gemma 4 31B-it、Qwen3-30B-A3B和GPT-4o-mini)在基准任务上进行测试,结果显示,使用修正后的标签,模型准确率提升了9到22个百分点,表明原始标注错误扭曲了模型的性能评估。
基于这些发现,研究者提出了一种基于LLM的框架来辅助人工审阅NL-to-FOL数据集。该框架通过识别最容易出错的实例,引导审阅者重点关注这些条目。实验表明,使用该框架后,仅需审查不到24%的实例即可达到90%的数据集准确率,而无指导的审查则需要审查超过70%的实例才能达到相同效果。研究者已公开了所有人工验证的标注和框架代码,为NL-to-FOL领域提供了宝贵的资源。这项工作不仅提高了数据集的可靠性,也为未来高效、准确的标注流程奠定了基础。