ForecastBench-Sim:シミュレーション世界を利用した予測ベンチマーク
研究者らは、戦略ゲーム「Freeciv」を基盤としたシミュレーション世界の予測ベンチマーク「ForecastBench-Sim」を発表。現実世界のベンチマークが抱える結果確定の遅さ、テールイベントの希少性、反実仮想の評価困難性を克服する。
人工知能システムの予測能力を評価する既存のベンチマークは、現実世界の制約に大きく依存しています。結果が確定するまでに長い時間がかかり、まれな事象(テールイベント)のサンプルは乏しく、反実仮想(もしも別の選択をしていたら)の質問はスコア化が困難です。この問題に対処するため、カリフォルニア大学バークレー校などの研究チームは、シミュレーション世界を利用した新しい予測ベンチマーク「ForecastBench-Sim」を提案しました。
ForecastBench-Simは、『シヴィライゼーション』シリーズに着想を得たターン制戦略ゲーム「Freeciv」のゲームロールアウトを基盤としています。予測者は固定された「世界レポート」(現在のゲーム状態の構造化スナップショット)を受け取り、隠された将来の状態に関する質問に回答します。ベンチマークはその後シミュレーションを続行し、実際の結果に基づいて予測をスコア化します。世界がシミュレートされているため、同じセットアップで任意の時間軸における連続的または二値的な予測質問、条件付きまたは因果質問のためのペア介入世界(例:一方の世界で特定の政策を実施し、もう一方では実施しない)、まれなまたは破壊的な事象(文明の崩壊など)の解決済み例を生成できます。
研究チームは、ベンチマークのパイプライン、質問ファミリー(連続確率、二値、条件、因果、まれな事象)、スコアリングプロトコル(Brierスコアや対数スコアなど)、公開されたツールとデータセットについて詳述しています。また、大規模言語モデルや専用予測モデルを含む複数のAIモデルの評価結果と、匿名の人間パイロットテストからの検証データを報告しています。結果は、ForecastBench-Simが異なるシステムの予測能力を効果的に区別できること、および人間の予測者とモデルの間に有意な差があることを示しています。
ForecastBench-Simは、既存の現実世界予測ベンチマーク(例:ForecastBench)を補完するものであり、動的な世界状態下での確率的推論を研究するための制御可能で即時に解決可能なタスクを提供します。本研究成果は、ICML 2026のワークショップ「Forecasting as a New Frontier of Intelligence / AI Forecasting Workshop」でスポットライト発表され、シミュレーション環境がAIの予測能力評価において重要な役割を果たすことを示しました。将来、研究チームはマルチエージェント相互作用やより複雑なゲームシナリオをカバーするようにベンチマークを拡張する予定です。