AI News HubLIVE
站内改写2 分鐘閱讀

ForecastBench-Sim:一個基於模擬世界的預測基準測試

研究人員推出了ForecastBench-Sim,這是一個基於策略遊戲《Freeciv》的模擬世界預測基準測試,旨在解決真實世界基準測試中結果解析緩慢、尾部事件罕見和反事實問題難以評分的問題。該基準透過提供固定的遊戲狀態快照並詢問隱藏的未來狀態來評估預測能力,支援連續/二元預測、條件/因果問題和罕見事件樣本。

來源arXiv AI作者: Jaeho Lee, Nick Merrill, Ezra Karger

近年來,人工智慧系統在預測方面的能力備受關注,但傳統的預測基準測試往往受限於真實世界的約束。例如,真實世界的結果需要很長時間才能驗證,罕見事件(如黑天鵝事件)的樣本極其稀少,而反事實問題(即“如果當時不同會怎樣”)則難以進行評分。為了突破這些瓶頸,來自加州大學伯克利分校等機構的研究人員提出了ForecastBench-Sim,一個基於模擬世界的全新預測基準測試。

該基準測試構建在開源回合制策略遊戲《Freeciv》之上。《Freeciv》是一款靈感來源於《文明》系列的遊戲,其複雜的遊戲狀態和可重複的模擬特性使其成為理想的測試平臺。在ForecastBench-Sim中,預測者會收到一份固定的“世界報告”,即當前遊戲狀態的結構化快照,然後需要回答關於隱藏未來狀態的問題。基準測試會繼續執行遊戲模擬,並根據實際結果對預測進行評分。由於遊戲世界是模擬的,這套框架可以生成任意時間跨度(從幾輪到數百輪)的連續或二元預測問題,同時還能支援條件性和因果性問題——透過建立配對干預世界(例如,其中一個世界實施了特定政策,而另一個沒有)來實現。此外,它還能提供罕見或顛覆性事件(如文明崩潰)的已解決例項,這在真實世界中幾乎不可能獲得。

研究團隊詳細描述了基準測試的完整流程,包括如何從遊戲狀態生成問題、支援的問題型別(連續機率、二元、條件、因果、罕見事件)、評分協議(如Brier分數和對數分數),以及釋出的工具和資料集。他們還報告了來自多種AI模型(包括大型語言模型和專門預測模型)的評估結果,以及一項匿名人類試驗的驗證資料。結果顯示,ForecastBench-Sim能夠有效區分不同系統的預測能力,並且人類預測者的表現與模型存在顯著差異。

ForecastBench-Sim旨在補充現有的真實世界預測基準(如ForecastBench),為研究動態世界狀態下的機率推理提供一個可控且可立即解析的任務集。該工作已被ICML 2026的“預測作為智慧新前沿”研討會接收為亮點報告,標誌著模擬環境在AI預測能力評估中的重要應用。未來,研究團隊計劃擴充套件該基準以涵蓋多智慧體互動和更復雜的遊戲場景。