“如果世界”:面向具身場景的通用世界模型因果基準
影片生成模型越來越多地被用作世界模擬器,但現有基準僅評估單影片質量,無法檢測模型是否真正理解因果關係。新提出的“如果世界”基準包含319對基於真實場景的提示對,透過改變一個物理變數來測試模型輸出的因果一致性。對9個最先進模型的評測顯示,最佳配對得分僅52%,開源模型約28%,且表現與視覺顯著性相關而非物理可解性。
文章情報
要點
- “如果世界”基準由319個提示對組成,每個提示對僅在一個物理變數上不同,旨在檢驗影片生成模型能否根據物理規律產生正確的差異。
- 採用APEO評分標準(Adherence、Physics、Environment、Outcome)評估,9個模型中最高得分為52%,開源模型集中在28%左右,所有模型在大量因果乾預上失敗。
- 模型效能與干預的視覺顯著性高度相關:視覺上微妙的干預得分低至14.2%,而視覺明顯的干預可達40.4%,表明模型依賴表面特徵而非物理理解。
為什麼重要
這條新聞值得關注,因為“如果世界”基準由319個提示對組成,每個提示對僅在一個物理變數上不同,旨在檢驗影片生成模型能否根據物理規律產生正確的差異。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
影片生成模型正越來越廣泛地被用作世界模擬器,應用於自動駕駛和機器人操作等關鍵領域。然而,在這些應用場景中,真正重要的並不是單個影片看起來多麼逼真,而是當輸入條件改變時,模型的輸出能否相應變化。例如,如果描述同一場景的兩個提示僅在某個物理細節(如障礙物的位置或物體的重量)上有所不同,那麼生成的兩個影片應該根據物理規律產生差異。但現有的基準測試往往只對單個影片進行評分,無法捕捉到模型雖然能生成看似合理的影片,卻未能正確響應因果乾預這一缺陷。
為了填補這一空白,來自加州大學伯克利分校等多所機構的研究團隊提出了“如果世界”(What-If World)基準測試。該基準包含319對精心設計的提示,這些提示基於nuScenes和DROID資料集中的真實幀,並涵蓋了駕駛和操作任務中常見的六類物理變數:物體位置、物體存在/缺失、物體屬性(如顏色、尺寸)、物理狀態(如運動、靜止)、環境條件(如光照、天氣)以及時間(如不同時間步的幀)。每對提示透過APEO四部分評分標準來評估:Adherence(影片是否遵循提示)、Physics(物理一致性,如物體運動是否符合重力)、Environment(共享場景的保持,即背景等不變部分是否一致)和Outcome(最終差異是否正確)。
研究團隊對9個最先進的影片生成模型進行了系統性測試,結果令人警醒:沒有任何一個模型的配對得分超過52%,而開源模型的得分集中在28%左右。每個測試的模型都在大量因果乾預上失敗,表明這些模型距離可靠支援動作條件模擬或基於模型的規劃還有很大差距。例如,當提示要求“將椅子向右移動”與“將椅子向左移動”時,模型往往無法正確改變運動方向。此外,當模型得分較高時,其表現似乎與干預的視覺顯著性相關,而非其潛在物理問題的可解性。一些視覺上微妙的干預(如改變物體顏色)得分低至14.2%,而視覺上明顯的干預(如改變物體位置)則達到40.4%。
這一發現強調了當前影片生成模型在因果推理方面的嚴重不足。研究者指出,未來的模型需要更加註重理解物理規律,而不僅僅是生成視覺上逼真的影片。“如果世界”基準有望推動該領域的發展,使得世界模擬器真正具備可靠的因果推理能力。該基準的程式碼和資料已開源,可供研究者使用。