FOLIOとMALLSの修正:検証済みアノテーションと人間による再ラベリングに焦点を当てたLLM支援フレームワーク
自然言語から一階述語論理(NL-to-FOL)への正確な変換はニューロシンボリックAIと自然言語推論(NLI)の基盤ですが、ベンチマークデータセットFOLIOとMALLSは厳密に監査されていませんでした。本研究では、これらのデータセットを体系的に調査し、約39%(FOLIO)と36%(MALLS)のエントリに誤ったFOL形式化があることを発見しました。修正された正解ラベルを公開し、LLMベースのフレームワークを提案することで、人間によるレビュー作業を70%以上削減し、24%未満のインスタンスのレビューで90%のデータセット精度を達成できることを示しました。
自然言語から一階述語論理(NL-to-FOL)への正確な変換は、ニューロシンボリックAIシステムや自然言語推論(NLI)の基盤をなすものであり、NL-to-FOLベンチマークデータセットの品質は極めて重要です。しかし、FOLIOとMALLSという広く使われているデータセットはこれまで厳密に監査されたことがありませんでした。本研究では、FOLIOの検証セットとMALLSのテストインスタンスの一部を体系的に人間が検査し、多数の誤りを発見しました。
具体的には、FOLIOのエントリの約39%、MALLSのエントリの約36%において、一階述語論理の形式化(正解ラベル)が誤っていました。さらに、FOLIOでは16.4%の自然言語文に曖昧さがあり、8.4%のNLIラベルが不正確でした。これらの誤りはモデル評価の信頼性を著しく損なっています。これらの問題を修正するため、研究者は検証済みの正解ラベルを開発し公開しました。3つの最先端の大規模言語モデル(Gemma 4 31B-it、Qwen3-30B-A3B、GPT-4o-mini)を用いてベンチマークタスクをテストしたところ、修正されたラベルを使用することでモデルの精度が9~22パーセンテージポイント向上しました。これは、元のアノテーションの誤りがモデルの性能評価を歪めていたことを示しています。
これらの発見に基づき、研究者は人間によるNL-to-FOLデータセットのレビューを支援するLLMベースのフレームワークを提案しました。このフレームワークは、最も誤りやすいインスタンスを特定し、レビュアーの注意をそれらに集中させます。実験では、このフレームワークを用いることで、データセットの24%未満のインスタンスをレビューするだけで90%の精度を達成できることが示されました。一方、ガイドなしのレビューでは同じ精度を達成するために70%以上のインスタンスをレビューする必要がありました。研究者は、全ての人間検証済みアノテーションとフレームワークのコードを公開しており、NL-to-FOL分野に貴重なリソースを提供しています。この研究は、データセットの信頼性を高めるだけでなく、将来の効率的かつ正確なアノテーションプロセスの基盤を築くものです。