AI News HubLIVE
站内改写2 分で読了

CrowdMath: クラウドソースによる数学研究議論のデータセット

大規模言語モデルは数学的推論において顕著な進歩を遂げているが、既存のベンチマークは通常、最終的な答えや完全な証明を伴う明確に定義された問題を評価するものであり、協力的なオープンプロブレム解決を捉えていない。本論文では、MIT PRIMES-AoPS CrowdMathプログラム(2016-2025年)から得られた164件の専門家注釈付き進行チェーンからなるデータセットCrowdMathを紹介する。各チェーンは、オープンプロブレムの提示から証明完了までの複数参加者によるフォーラム議論を追跡し、投稿は機能的な役割に基づいてラベル付けされる。6つの最先端モデルを評価した結果、次投稿予測では83-88%の精度を達成したが、投稿役割分類では最良モデルでもマクロF1=0.42と低迷し、協調的な数学的進行の理解におけるギャップが明らかになった。

ソースarXiv AI著者: Sherin Muckatira, Jesse Geneson, Slava Gerovitch, Pavel Etingof, Mikhail Gronas, Anna Rumshisky

大規模言語モデルは数学的推論において目覚ましい成果を上げていますが、既存のベンチマークのほとんどは、明確な答えや完全な証明を必要とする閉じた問題に焦点を当てており、実際の数学研究で行われている協調的な問題解決プロセスを反映していません。このギャップを埋めるため、MITとAoPS(Art of Problem Solving)の研究チームは、クラウドソースによる数学研究の議論プロセスを捉えたデータセット「CrowdMath」を発表しました。

CrowdMathデータセットは、2016年から2025年にかけて実施されたMIT PRIMESとAoPS共同のCrowdMathプログラムに基づいています。このプログラムは協調的な研究イニシアチブであり、その議論の成果は複数の査読付き論文として発表されています。研究者たちはプログラムのフォーラムから164件の「進行チェーン」(progress chain)を厳選しました。各チェーンは、オープンプロブレムの提示から証明の完成に至るまでの複数参加者による議論の流れを追跡しています。各フォーラム投稿には、問題解決プロセスにおける機能的な役割(部分進展、証明完了、誤った推論、誤り特定)が詳細にラベル付けされています。

現在のモデルがどの程度このような協調的推論を理解できるかを評価するため、研究チームは2つのタスクを定義しました:次投稿予測(next-post prediction)と投稿役割分類(post-role classification)です。6つの最先端モデルをテストした結果、次投稿予測タスクでは83〜88%の精度を達成し、モデルが議論の局所的な流れを追跡できることが示されました。しかし、投稿役割分類タスクでは、最良のモデルでもマクロ平均F1スコアが0.42にとどまり、各投稿が全体の議論の中でどのような機能を果たしているかを理解するのが難しいことが明らかになりました。

CrowdMathデータセットは、AIシステムが解決済みの数学問題を解く能力と、協調的な数学研究の進行を理解する能力との間に大きな隔たりがあることを明確に示しています。このギャップは今後の研究の重要な方向性を示しており、人間と協力して数学研究に貢献できるAIの開発に向けて、貴重な訓練データと評価基準を提供します。

CrowdMath: クラウドソースによる数学研究議論のデータセット | AI News Hub