在真实双评分GCSE基准测试上的LLM表现
一项新研究引入了一个包含32,534份真实GCSE模拟考试双评分学生回答的数据集,涵盖五个科目328道题,包括手写内容。测试发现,现成的大型语言模型与考官评分的一致性非常高,顶级模型的一致性甚至超过考官之间的一致性。模型在主观任务如英语作文评分以及处理复杂手写数学试卷方面表现出色,且一致性不受模型大小显著影响,为自动化评分提供了经济有效的解决方案。
近日,一项发表于arXiv的研究论文《LLM Performance on a Real, Double-Marked GCSE Benchmark》引起了广泛关注。该研究由Malachy Fox等三位作者完成,于2026年6月23日提交,旨在探索大语言模型(LLM)在真实教育评分场景中的表现。研究团队创建了一个独特的基准数据集,包含32,534份来自英国GCSE模拟考试的真实学生答卷。GCSE(General Certificate of Secondary Education)是英国学生在16岁左右参加的全国性考试,这些答卷涵盖了英语、数学等五个学科的328道题目,并且包含了大量手写内容,每份答卷均由两位经验丰富的考官独立评分。
研究团队测试了多种现成的大语言模型(如GPT-4、Claude等),评估其与考官评分的一致性,并将其与两位考官之间的一致性进行对比。结果显示,顶级模型与考官共识的一致性竟然超过了考官之间的一致性。这意味着,在评分任务上,这些大语言模型可能比人类考官更加可靠和一致。尤其在主观性任务如英语作文评分上,模型取得了很高的得分,同时还能处理复杂且书写潦草的数学试卷手写内容。模型甚至能够准确识别数学公式和符号,并给出与考官高度一致的分数。
值得关注的是,研究还发现模型大小(参数数量)对评分一致性影响不大。即便是较小的模型也能达到与大型模型相当的一致性水平。这一发现为学校和教育机构部署经济高效的自动评分系统提供了有力支持,因为不需要使用最昂贵的模型也能获得可靠的结果。论文指出,这种一致性在所有科目和题型中表现稳定,接近考官自身的一致性水平。
然而,研究人员也强调,尽管结果令人振奋,但在实际应用前仍需进一步验证模型在不同题型、不同学科以及不同学生群体上的公平性和准确性。目前,该数据集已公开,供其他研究者复现和进一步探索。这项研究不仅展示了LLM在教育评估领域的巨大潜力,也为自动评分技术的落地提供了坚实的数据基础。未来,随着模型能力的提升和更多数据的积累,大语言模型有望在标准化考试评分中发挥越来越重要的作用,甚至可能改变传统人工评分的模式。