ForecastBench-Sim:一个基于模拟世界的预测基准测试
研究人员推出了ForecastBench-Sim,这是一个基于策略游戏《Freeciv》的模拟世界预测基准测试,旨在解决真实世界基准测试中结果解析缓慢、尾部事件罕见和反事实问题难以评分的问题。该基准通过提供固定的游戏状态快照并询问隐藏的未来状态来评估预测能力,支持连续/二元预测、条件/因果问题和罕见事件样本。
近年来,人工智能系统在预测方面的能力备受关注,但传统的预测基准测试往往受限于真实世界的约束。例如,真实世界的结果需要很长时间才能验证,罕见事件(如黑天鹅事件)的样本极其稀少,而反事实问题(即“如果当时不同会怎样”)则难以进行评分。为了突破这些瓶颈,来自加州大学伯克利分校等机构的研究人员提出了ForecastBench-Sim,一个基于模拟世界的全新预测基准测试。
该基准测试构建在开源回合制策略游戏《Freeciv》之上。《Freeciv》是一款灵感来源于《文明》系列的游戏,其复杂的游戏状态和可重复的模拟特性使其成为理想的测试平台。在ForecastBench-Sim中,预测者会收到一份固定的“世界报告”,即当前游戏状态的结构化快照,然后需要回答关于隐藏未来状态的问题。基准测试会继续运行游戏模拟,并根据实际结果对预测进行评分。由于游戏世界是模拟的,这套框架可以生成任意时间跨度(从几轮到数百轮)的连续或二元预测问题,同时还能支持条件性和因果性问题——通过创建配对干预世界(例如,其中一个世界实施了特定政策,而另一个没有)来实现。此外,它还能提供罕见或颠覆性事件(如文明崩溃)的已解决实例,这在真实世界中几乎不可能获得。
研究团队详细描述了基准测试的完整流程,包括如何从游戏状态生成问题、支持的问题类型(连续概率、二元、条件、因果、罕见事件)、评分协议(如Brier分数和对数分数),以及发布的工具和数据集。他们还报告了来自多种AI模型(包括大型语言模型和专门预测模型)的评估结果,以及一项匿名人类试验的验证数据。结果显示,ForecastBench-Sim能够有效区分不同系统的预测能力,并且人类预测者的表现与模型存在显著差异。
ForecastBench-Sim旨在补充现有的真实世界预测基准(如ForecastBench),为研究动态世界状态下的概率推理提供一个可控且可立即解析的任务集。该工作已被ICML 2026的“预测作为智能新前沿”研讨会接收为亮点报告,标志着模拟环境在AI预测能力评估中的重要应用。未来,研究团队计划扩展该基准以涵盖多智能体交互和更复杂的游戏场景。