在真實雙評分GCSE基準測試上的LLM表現
一項新研究引入了一個包含32,534份真實GCSE模擬考試雙評分學生回答的資料集,涵蓋五個科目328道題,包括手寫內容。測試發現,現成的大型語言模型與考官評分的一致性非常高,頂級模型的一致性甚至超過考官之間的一致性。模型在主觀任務如英語作文評分以及處理複雜手寫數學試卷方面表現出色,且一致性不受模型大小顯著影響,為自動化評分提供了經濟有效的解決方案。
近日,一項發表於arXiv的研究論文《LLM Performance on a Real, Double-Marked GCSE Benchmark》引起了廣泛關注。該研究由Malachy Fox等三位作者完成,於2026年6月23日提交,旨在探索大語言模型(LLM)在真實教育評分場景中的表現。研究團隊建立了一個獨特的基準資料集,包含32,534份來自英國GCSE模擬考試的真實學生答卷。GCSE(General Certificate of Secondary Education)是英國學生在16歲左右參加的全國性考試,這些答卷涵蓋了英語、數學等五個學科的328道題目,並且包含了大量手寫內容,每份答卷均由兩位經驗豐富的考官獨立評分。
研究團隊測試了多種現成的大語言模型(如GPT-4、Claude等),評估其與考官評分的一致性,並將其與兩位考官之間的一致性進行對比。結果顯示,頂級模型與考官共識的一致性竟然超過了考官之間的一致性。這意味著,在評分任務上,這些大語言模型可能比人類考官更加可靠和一致。尤其在主觀性任務如英語作文評分上,模型取得了很高的得分,同時還能處理複雜且書寫潦草的數學試卷手寫內容。模型甚至能夠準確識別數學公式和符號,並給出與考官高度一致的分數。
值得關注的是,研究還發現模型大小(引數數量)對評分一致性影響不大。即便是較小的模型也能達到與大型模型相當的一致性水平。這一發現為學校和教育機構部署經濟高效的自動評分系統提供了有力支援,因為不需要使用最昂貴的模型也能獲得可靠的結果。論文指出,這種一致性在所有科目和題型中表現穩定,接近考官自身的一致性水平。
然而,研究人員也強調,儘管結果令人振奮,但在實際應用前仍需進一步驗證模型在不同題型、不同學科以及不同學生群體上的公平性和準確性。目前,該資料集已公開,供其他研究者復現和進一步探索。這項研究不僅展示了LLM在教育評估領域的巨大潛力,也為自動評分技術的落地提供了堅實的資料基礎。未來,隨著模型能力的提升和更多資料的積累,大語言模型有望在標準化考試評分中發揮越來越重要的作用,甚至可能改變傳統人工評分的模式。