2026-06-03 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

修复FOLIO和MALLS：验证标注与LLM辅助框架以聚焦人工重新标注

对自然语言到一阶逻辑（NL-to-FOL）基准FOLIO和MALLS的系统审计发现，约39%的FOLIO条目和36%的MALLS条目存在错误的FOL形式化。作者发布了修正后的标注，并提出了一个基于LLM的框架，可将人工审查工作量减少70%以上，在审查不到24%的实例后即可达到90%的数据集准确率。

来源arXiv Computational Linguistics作者: Andrea Brunello, Cristian Curaba, Luca Geatti, Michele Mignani, Angelo Montanari, Nicola Saccomanno

自然语言到一阶逻辑（NL-to-FOL）的准确翻译是神经符号AI系统和自然语言推理（NLI）的基石，因此NL-to-FOL基准数据集的质量至关重要。然而，FOLIO和MALLS这两个广泛使用的数据集从未经过严格的审计。本研究首次对FOLIO的验证集和MALLS的部分测试实例进行了系统的人工检查，揭示出其中存在大量错误。

具体而言，FOLIO中约39%的条目和MALLS中约36%的条目的FOL形式化（即真实标签）是错误的。此外，FOLIO中还有16.4%的NL句子存在歧义，8.4%的NLI标签不正确。这些错误严重影响了模型评估的可靠性。为了纠正这些问题，研究者开发并发布了修正后的真实标签。他们使用三个先进的大型语言模型（Gemma 4 31B-it、Qwen3-30B-A3B和GPT-4o-mini）在基准任务上进行测试，结果显示，使用修正后的标签，模型准确率提升了9到22个百分点，表明原始标注错误扭曲了模型的性能评估。

基于这些发现，研究者提出了一种基于LLM的框架来辅助人工审阅NL-to-FOL数据集。该框架通过识别最容易出错的实例，引导审阅者重点关注这些条目。实验表明，使用该框架后，仅需审查不到24%的实例即可达到90%的数据集准确率，而无指导的审查则需要审查超过70%的实例才能达到相同效果。研究者已公开了所有人工验证的标注和框架代码，为NL-to-FOL领域提供了宝贵的资源。这项工作不仅提高了数据集的可靠性，也为未来高效、准确的标注流程奠定了基础。