実際の二重採点GCSEベンチマークにおけるLLMの性能
新しい研究では、GCSE模擬試験の32,534件の実際の二重採点学生回答データセット(5科目328問、手書き含む)を導入。市販の大規模言語モデルが採点者とどの程度一致するかを調査した結果、トップモデルは採点者同士の一致よりも高い一致を示した。英語エッセイ採点などの主観的タスクや複雑な手書き数学答案の処理でも高スコアを達成。モデルサイズによる差は小さく、コスト効率の良い自動採点ソリューションを提供する。
2026年6月23日にarXivに投稿された研究論文「LLM Performance on a Real, Double-Marked GCSE Benchmark」(著者:Malachy Fox他2名)は、大規模言語モデル(LLM)の実際の試験採点における性能を評価するためのベンチマークデータセットを紹介しています。このデータセットは、英国のGCSE(16歳向け全国試験)の模擬試験における32,534件の実際の学生回答から構成され、各回答は2人の採点者によって独立に採点されています。データは英語、数学を含む5教科にわたり、328の質問と手書きの解答を含んでいます。
研究者らは、GPT-4やClaudeなどの市販のLLMが採点者とどの程度一致するかを調査し、特に2人の採点者間の一致度と比較しました。結果、トップパフォーマンスのモデルは、採点者間の一致度よりも高い一致を示しました。これは、LLMが一部のタスクで人間の採点者よりも一貫性があることを意味します。モデルは、英語のエッセイ採点のような主観的なタスクでも高スコアを達成し、複雑で乱雑な手書きの数学答案も正確に処理しました。数学の数式や記号を正しく認識し、採点者と高い一致を示したのです。
さらに、モデルのサイズ(パラメータ数)による性能の差異は小さく、小規模なモデルでも大規模モデルと同等の一致率を示しました。このことは、コスト効率の良い自動採点システムの実装が可能であることを示唆しています。一致率はすべての科目と問題タイプで安定しており、採点者のラインに近い値を示しました。
この研究は、LLMが教育評価の分野で実用的なツールとなる可能性を強調しています。特に、手書き認識や主観的評価といった困難なタスクにおいて、人間の採点者と同等以上に機能することが確認されました。今後、多様な問題や公平性の確保などさらなる検討が必要ですが、自動採点の実現に向けた重要な一歩と言えるでしょう。データセットは公開されており、他の研究者による再現や拡張が期待されています。