2026-06-08 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

CrowdMath：众包数学研究讨论数据集

大语言模型在数学推理方面取得了显著进展，但现有基准通常评估有明确最终问题、逐步解决方案或完整证明的问题，未能捕捉协作式开放问题求解的过程。本文介绍了CrowdMath，一个包含164条专家注释进展链的数据集，来源于MIT PRIMES与AoPS合作的CrowdMath项目（2016-2025）。每条链追踪从开放问题到证明完成的多参与者论坛讨论，帖子按功能角色标注。六种前沿模型在下一帖预测上达到83-88%的准确率，但在帖子角色分类上最佳宏F1仅为0.42，揭示了模型在理解协作式数学进展方面的不足。

来源arXiv AI作者: Sherin Muckatira, Jesse Geneson, Slava Gerovitch, Pavel Etingof, Mikhail Gronas, Anna Rumshisky

大型语言模型在数学推理任务上已经取得了令人瞩目的成就，然而现有的评估基准大多聚焦于那些具有明确答案、逐步解法或完整证明的封闭式问题。这类基准未能反映实际数学研究中的协作式开放问题求解：在真实场景中，研究人员会共同提出部分论证、识别先前推理中的漏洞或错误、修正有缺陷的思路，并逐步将分散的贡献整合成一个完整的证明。为了弥补这一空白，来自麻省理工学院（MIT）和AoPS（Art of Problem Solving）的研究团队推出了CrowdMath——一个专门用于捕捉众包数学研究讨论过程的数据集。

CrowdMath数据集基于MIT PRIMES与AoPS联合运营的CrowdMath项目，时间跨度从2016年至2025年。该项目是一个协作式研究计划，其讨论成果已被多篇同行评审论文所收录。研究人员从项目论坛中精选出164条“进展链”（progress chains），每一条链都追踪了一场从开放问题陈述到最终证明完成的多参与者论坛讨论。这些论坛帖子被详细标注了它们在问题解决过程中所扮演的功能角色，包括部分进展（partial progress）、证明完成（proof completion）、错误推理（erroneous reasoning）以及错误识别（error identification）。

为了评估现有模型的协作推理能力，研究者定义了两项评价任务：下一帖预测（next-post prediction）和帖子角色分类（post-role classification）。他们测试了六种前沿的大语言模型。实验结果显示，模型在下一帖预测任务上表现出色，准确率达到了83%至88%，表明它们能够较好地把握数学讨论的局部流程。然而，在帖子角色分类任务上，模型的表现却不尽如人意——即便性能最佳的模型，其宏平均F1分数也仅有0.42。这说明模型虽然能够预测讨论“接下来会发生什么”，但却难以理解“每条消息在整个论证中起到了什么作用”。

CrowdMath数据集的发布，明确揭示了当前人工智能系统在解决封闭式数学问题与理解开放式协作推理之间的巨大鸿沟。这一差距也为未来研究指明了方向：如何让模型不仅会“算题”，更能“参与讨论”。该数据集将为开发能够协同人类进行数学研究的人工智能提供宝贵的训练资源和评测标准。