CrowdMath:眾包數學研究討論資料集
大語言模型在數學推理方面取得了顯著進展,但現有基準通常評估有明確最終問題、逐步解決方案或完整證明的問題,未能捕捉協作式開放問題求解的過程。本文介紹了CrowdMath,一個包含164條專家註釋進展鏈的資料集,來源於MIT PRIMES與AoPS合作的CrowdMath專案(2016-2025)。每條鏈追蹤從開放問題到證明完成的多參與者論壇討論,帖子按功能角色標註。六種前沿模型在下一帖預測上達到83-88%的準確率,但在帖子角色分類上最佳宏F1僅為0.42,揭示了模型在理解協作式數學進展方面的不足。
大型語言模型在數學推理任務上已經取得了令人矚目的成就,然而現有的評估基準大多聚焦於那些具有明確答案、逐步解法或完整證明的封閉式問題。這類基準未能反映實際數學研究中的協作式開放問題求解:在真實場景中,研究人員會共同提出部分論證、識別先前推理中的漏洞或錯誤、修正有缺陷的思路,並逐步將分散的貢獻整合成一個完整的證明。為了彌補這一空白,來自麻省理工學院(MIT)和AoPS(Art of Problem Solving)的研究團隊推出了CrowdMath——一個專門用於捕捉眾包數學研究討論過程的資料集。
CrowdMath資料集基於MIT PRIMES與AoPS聯合運營的CrowdMath專案,時間跨度從2016年至2025年。該專案是一個協作式研究計劃,其討論成果已被多篇同行評審論文所收錄。研究人員從專案論壇中精選出164條“進展鏈”(progress chains),每一條鏈都追蹤了一場從開放問題陳述到最終證明完成的多參與者論壇討論。這些論壇帖子被詳細標註了它們在問題解決過程中所扮演的功能角色,包括部分進展(partial progress)、證明完成(proof completion)、錯誤推理(erroneous reasoning)以及錯誤識別(error identification)。
為了評估現有模型的協作推理能力,研究者定義了兩項評價任務:下一帖預測(next-post prediction)和帖子角色分類(post-role classification)。他們測試了六種前沿的大語言模型。實驗結果顯示,模型在下一帖預測任務上表現出色,準確率達到了83%至88%,表明它們能夠較好地把握數學討論的區域性流程。然而,在帖子角色分類任務上,模型的表現卻不盡如人意——即便效能最佳的模型,其宏平均F1分數也僅有0.42。這說明模型雖然能夠預測討論“接下來會發生什麼”,但卻難以理解“每條訊息在整個論證中起到了什麼作用”。
CrowdMath資料集的釋出,明確揭示了當前人工智慧系統在解決封閉式數學問題與理解開放式協作推理之間的巨大鴻溝。這一差距也為未來研究指明瞭方向:如何讓模型不僅會“算題”,更能“參與討論”。該資料集將為開發能夠協同人類進行數學研究的人工智慧提供寶貴的訓練資源和評測標準。