英偉達清華團隊提出Gamma-World:世界模型從「一個人玩」到「多人共處」
Gamma-World由NVIDIA與清華等機構提出,通過單純形編碼和稀疏樞紐注意力,實現多智能體世界模型的高效交互與對稱表示,支持零樣本擴展到更多玩家,並遷移至真實機器人場景。
文章情報
要點
- 提出Simplex Rotary Agent Encoding,實現玩家身份的等距對稱表示。
- 引入Sparse Hub Attention,將跨智能體通信複雜度從平方級降至線性。
- 採用三階段蒸餾,實現24 FPS實時推演。
- 雙人數據訓練直接泛化到四人場景,併成功應用於真實雙臂機器人協同。
為甚麼重要
這條新聞值得關注,因為提出Simplex Rotary Agent Encoding,實現玩家身份的等距對稱表示。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
英偉達清華團隊提出Gamma-World:世界模型從「一個人玩」到「多人共處」 – 量子位
英偉達清華團隊提出Gamma-World:世界模型從「一個人玩」到「多人共處」
聞樂 2026-05-30 14:33:58
來源:量子位
讓世界模型邁向多智能體交互仿真
允中 發自 凹非寺
量子位 | 公眾號 QbitAI
當前視頻世界模型在單智能體設定下已經走得相對成熟。
但多智能體場景——多個玩家共享同一個演化世界,在架構層面一直缺乏系統性的解決方案。
問題不在於算力不夠,而在於現有的位置編碼和注意力機制,從設計上就沒有為多個主體預留接口。
近日,NVIDIA聯合清華大學、多倫多大學和Vector Institute發佈Gamma-World(γ-World),從RoPE擴展和注意力拓撲兩個底層組件入手,給出了一套系統性的答案。
論文標題:Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
為什麼多智能體世界建模是一個困難問題
現有視頻世界模型幾乎都建立在單智能體假設之上:
給定一個玩家的動作序列,預測該視角下的未來觀測。
多智能體設定從根本上改變了這個問題的性質——模型不再只需預測「這個智能體接下來看到什麼」,而是需要同時回答:
玩家A的移動應當在玩家B的視野中如何呈現?兩名玩家同時操作同一個物體,狀態應當如何演化?
這不是「生成N段獨立視頻」的問題,而是「生成N個耦合視角對同一個演化世界的不同投影」。
在技術層面,這意味着模型必須同時維護三重一致性:
時間一致性:畫面在時序上連貫;
跨視角一致性:A在B視野中的呈現與A自身軌跡吻合;
交互一致性:多個智能體對共享環境的操作在所有視角中產生一致的狀態變化。
單智能體框架在設計上只保證了時間一致性,後兩者從未被納入考量——
這是架構層面的結構性缺失,無法通過增加數據量或模型規模來彌補。
在Gamma-World之前,這個方向並非沒有人嘗試。
Solaris已經在雙人Minecraft上取得了不錯的結果,但它暴露出的兩個結構性問題,恰恰説明了為什麼將單智能體框架直接「擴展」到多智能體,是一條走不通的路。
其一,身份編碼破壞了對稱性。
Solaris為每個玩家分配固定的可學習槽位身份向量,實質上將「1號槽」和「2號槽」學成了兩種不同的角色類型。
在真實的多智能體世界中,能力相同的玩家本質上可互換,這種對稱性的缺失使模型學到的是「特定角色的交互模式」,而非「多個平等主體共享世界的規律」,泛化性從根本上受限,且一旦需要支持新的玩家數就必須重新訓練。
其二,全連接注意力存在擴展性天花板。
讓所有玩家的token兩兩直接交互,計算成本隨玩家數量平方增長——
從2人擴展到8人,計算量從477.8G增至7.6T,增長約16倍。
這是算法複雜度決定的天花板,無法通過工程優化解決。
兩個問題指向同一個結論:多智能體世界模型需要的不是修補,而是對兩個核心組件的重新設計。
有關如何表示智能體身份,以及如何設計跨智能體通信。
核心設計一:Simplex Rotary Agent Encoding,讓玩家「身份等距、地位平等」
這個設計要解決的核心矛盾是:
如何讓模型既能區分不同的玩家,又不讓任何玩家在表示上比其他玩家「更特殊」。
視頻Transformer用RoPE(旋轉位置編碼)來表達位置關係——給每個信息片段分配一個旋轉角度,兩個片段之間的位置差異通過旋轉角度的差來表達。
標準視頻RoPE編碼三個軸:時間、高度、寬度。
Gamma-World加了第四個軸——玩家軸,在不改變原有時空編碼的前提下,為智能體身份單獨留出一個維度。
軸加起來容易,難的是這個玩家軸上的編碼怎麼設計。
直接編號行不通。
給玩家按序號分配角度,會導致不同玩家對之間的旋轉距離不等:1號和2號差1,1號和3號差2。
「1號與2號的關係」和「1號與3號的關係」在表示空間中並不等距,儘管物理上完全等價。置換對稱性被編碼方式本身直接破壞。
可學習的槽位嵌入也不行。
每個座位綁定一個固定的可訓練向量,模型被鎖死在訓練時的玩家數量上,無法擴展,這正是Solaris的核心侷限。
正單純形:所有玩家天然等距
Gamma-World的解法很優雅:把所有玩家放在一個正單純形(regular simplex)的頂點上。
什麼意思?
想象一個正三角形,所有頂點之間的距離完全相等,沒有哪個頂點更特殊。
2個玩家 → 線段的兩端
3個玩家 → 等邊三角形的三個頂點
4個玩家 → 正四面體的四個頂點
無論哪兩個玩家,他們在旋轉角空間裏的距離完全一樣。模型看到任意兩個玩家,他們之間的幾何關係是對稱的,誰也不比誰特殊。
這個編碼不需要任何可學習的參數。
訓練時,活躍玩家被隨機分配到頂點池裏的不同位置,模型只能靠幾何座標來認人。
推理時想支持更多玩家,從同一個頂點池裏多取幾個頂點就行,架構不用改,也不用重新訓練。
這也是Gamma-World能做到「雙人數據訓練、四人場景直接跑通」的根本原因。
核心設計二:Sparse Hub Attention,從「全連接」到「樞紐廣播」
跨智能體通信是多智能體世界模型繞不過去的需求,但以往方案的做法代價過高——
讓所有玩家的所有token兩兩直接交互,計算成本隨玩家數量平方增長:從2人擴展到8人,計算量從477.8G漲至7.6T,增長約16倍。
這是算法複雜度決定的天花板,無法通過工程優化解決。
問題的根源在於一個錯誤的假設:每個token級別的細節都需要在所有玩家之間直接傳遞。
事實上,玩家A放下方塊,玩家B需要感知的只是「世界裏出現了一個方塊」——這是一個緊湊的世界狀態變化,而非A的全部視覺細節。
但玩家之間真的需要「直接説話」嗎?
全連接注意力隱含了一個假設:每個token級別的細節都需要在所有玩家之間直接傳遞。而這個假設在絕大多數場景下是錯誤的。
Gamma-World引入一組可學習的hub token(樞紐token),構成輪輻式拓撲:
每個智能體只與自身歷史及hub token交互;
hub token匯聚所有智能體的信息壓縮為共享狀態摘要,再廣播回各智能體流;
不同智能體之間的直接注意力被完全屏蔽,信息經由兩跳傳遞:智能體→hub→智能體。
這一結構將計算成本從平方複雜度壓至線性複雜度。
△Sparse Hub Attention(藍線)vs Dense Attention(紅線),隨玩家數量增加FLOPs差距接近8倍
值得強調的是,稀疏樞紐注意力不只是節省了算力,它本身也是一個更合理的歸納偏置——在架構層面顯式編碼了「跨智能體信息應經過共享世界狀態瓶頸」這一先驗,而非期待模型從數據中隱式學習。
推理時通過獨立的KV cache保留稀疏通信拓撲,最終實現24 FPS實時動作響應推演。
方法總覽
(注:方法總覽,左側為同步多智能體輸入,中間為Tokenization,右側為Causal Multi-Agent DiT,下方分別展示Simplex Rotary Agent Encoding和Sparse Hub Attention的示意圖)
整體架構輸入同步的多智能體觀測和動作序列,用共享的視覺編碼器和動作編碼器對每個玩家流分別tokenize,再通過帶稀疏樞紐注意力的因果多智能體DiT生成未來多路rollout。
推理時使用KV cache實現流式生成,每個玩家流和樞紐各維護獨立緩存。
核心設計三:三階段蒸餾,從「看得全」到「跑得快」
生成質量和推理實時性在擴散模型裏天然是一對矛盾:雙向模型質量最高但無法流式推理,因果模型支持實時生成但質量下降。
Gamma-World用三階段訓練在兩者之間架橋。
第一階段:訓練雙向教師。
教師模型可訪問完整序列(包括未來幀),提供最高質量的生成分佈,僅用於訓練階段,不參與推理。
第二階段:訓練因果學生。
學生模型只能看到當前及過去的幀,結合稀疏樞紐注意力適配流式推理。
關鍵在於將學生完整訓練為多步擴散模型,而非僅作為蒸餾熱身——蒸餾之前學生已能產生合理的推演結果,為下一階段提供穩定起點。
第三階段:條件Self-Forcing蒸餾。
以因果學生為起點、雙向教師為目標,通過分佈匹配蒸餾(DMD)將多步採樣壓縮為4步採樣。
蒸餾在自迴歸self-rollout下進行,訓練分佈與推理分佈對齊,有效緩解誤差累積。
全程保留初始幀與逐智能體動作序列作為條件信號,確保壓縮後的模型動作可控性不退化,最終實現24 FPS流式推演。
實驗結果
1、全面超越現有最強
在多人Minecraft環境的五類場景中,對比幀拼接方案和目前最強的多智能體世界模型Solaris,Gamma-World在記憶、空間定位、移動、建造、跨視角一致性五個場景全面領先,關鍵指標FVD(視頻生成質量的評估指標)平均降幅超過40%。
2、消融:每一步設計都有實際效果
消融結果説明從「學習槽位身份」換成「單純形編碼」,FVD從256.3降至228.5,沒有增加任何參數,僅通過改變編碼方式就帶來了整個消融中最大的單步增益。
這個結果的意義不只是「單純形編碼更好」,而是證明了一件更根本的事:
在架構中顯式編碼置換對稱性約束,比讓模型從數據中隱式學習這種結構,在樣本效率和最終性能上都有顯著優勢。
對稱性是一個先驗知識,把先驗知識編進架構比讓模型自己去發現,本來就更有效率——消融實驗用數字驗證了這一點。
3、雙人訓練,四人直接跑通
△零樣本四人泛化,模型僅用雙人數據訓練,推理時直接生成四路同步視角
模型僅在雙人數據上訓練,推理時從頂點池中啓用兩個新頂點,直接生成四路同步視角,無需修改任何架構參數,四路畫面維持共享世界狀態的一致性。
這個結果直接驗證了單純形編碼的核心設計目標:泛化到任意玩家數,不需要見過那個玩家數的訓練數據。
無論是Solaris、Enigma Labs的Multiverse還是Odyssey的Agora-1,這些工作都證明了多智能體世界模型可以做,但同時都缺乏這樣的拓展泛化能力。
4、兩種典型任務的定性展示
△兩智能體交互示例——兩路視角保持同步,Agent 1的行為在Agent 2的視角中被正確反映
在「放置與挖掘」任務中,兩路視角實時同步,一方的操作在另一方畫面中得到正確反映。
在「建造塔樓」任務中,雙方協同搭建的方塊在各自視角里位置一致,共享世界狀態完整維護。
當玩家暫時移出對方視野時,模型仍能維持正確的空間定位——這説明模型追蹤的是共享的潛在世界狀態,而非獨立生成各路視頻後拼在一起。
5、從遊戲到真實機器人
△從遊戲agent到真實雙臂機器人協同,模型生成保持協同運動的未來幀
研究團隊將Gamma-World應用於RealOmin-Open數據集的真實雙臂機器人協同任務,以左右兩條機械臂分別作為獨立智能體。
生成的未來幀保持了雙臂的協同運動與空間佈局,同一套框架從Minecraft多人場景直接遷移至真實物理操作,無需額外適配。
這一結果驗證了多智能體世界模型框架本身的通用性,而非針對特定場景的專項方案。
這也讓人忍不住往更遠處想:現實世界中幾乎所有有價值的場景,本質上都是多個主體在共享環境中協作或博弈——手術室裏的多臂協同、工廠產線上的多機器人調度、自動駕駛中的多車交互。
如果一套統一的多智能體世界模型框架能夠覆蓋這些場景,它所代表的就不只是仿真能力的提升,而是為整個Physical AI領域提供了一個全新的數據生產和策略訓練基礎設施。
小結
Gamma-World的三項核心設計,單純形旋轉智能體編碼、稀疏樞紐注意力、條件師生蒸餾,分別對應多智能體世界建模中三個長期懸而未決的問題:
身份的對稱表示、交互的高效建模、質量與實時性的同時兼顧。
每一項都不是修補,而是在確認原有路徑走不通之後,從更底層的建模原則重新給出的答案。
三項設計背後有一個共同的方法論:將對問題結構的理解直接編碼進架構,而非期待模型從數據中自行發現。
一個真正理解多智能體世界的模型,應當在結構上就是對稱的,而不是見過足夠多的數據之後,碰巧學出了近似對稱的行為。
前者是理解,後者只是擬合。
Gamma-World零樣本泛化到四人場景的結果,正是對這一判斷最直接的實驗驗證。
這一方法論也指向一個更大的可能性:當多智能體世界模型的生成質量足以忠實還原真實物理規律,訓練數據的採集方式本身就會發生根本性轉變——
從依賴真實場景的物理採集,轉向由神經網絡驅動的大規模模擬生成。
受限於人力、空間和時間的數據瓶頸,將有可能被無限可擴展的神經仿真所替代。
從方塊世界到機械臂,Gamma-World邁出的是驗證性的第一步。
真正的世界模型,學會的不該只是「畫面」,而是「規則」。
論文:Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
機構:NVIDIA/清華大學/多倫多大學/Vector Institute
項目主頁:https://research.nvidia.com/labs/sil/projects/gamma-world/
GitHub:https://github.com/nv-tlabs/Gamma-World
Huggingface: https://huggingface.co/papers/2605.28816
版權所有,未經授權不得以任何形式轉載及使用,違者必究。
世界模型 英偉達
聞樂
創意設計版WorkBuddy來了!騰訊發佈智能體創意工作室Miora2026-05-29
留給人類數學家的懸賞不多了!谷歌DeepMind一口氣解決9道埃爾德什問題2026-05-26
京東JoyInside戴文軍:AI的終極形態不是聊天,是融入你家每一件物品丨AIGC20262026-05-25
騰訊混元開源全新翻譯模型Hy-MT2 ,上線小程序「騰訊Hy翻譯」2026-05-21
相關閲讀
黃仁勳:OpenAI融資時英偉達太窮,當時應該把所有錢都給他們
在最新訪談中還預測OpenAI將成為下一個數萬億美元市值公司
聞樂2025-09-28
OpenAI 英偉達 黃仁勳
蘇媽戰老黃!官宣AMD大模型專用卡,對標英偉達H100,可跑更大模型
預計今年Q4推出
蕭簫2023-06-14
AMD 大模型 英偉達
英偉達用AI設計GPU:最新H100已經用上,比傳統EDA減少25%芯片面積
H100有近13000條電路由AI設計
白交2022-07-16
AI設計芯片 H100 英偉達
谷歌邀馬斯克聯手做AI遊戲!DeepMind版Sora是個3D遊戲引擎 profile-avatar
這個大佬們都在押注的方向,真的要火了~
夢晨2024-12-05
世界模型
英偉達為機器人推出懂推理的“大腦”!升級版Cosmos世界模型來了
70億參數大小
一水2025-08-12
機器人 英偉達
英偉達數據被盜後續:黑客用證書將病毒偽裝成顯卡驅動
第三方殺毒軟件可破之
曉查2022-03-07
病毒 英偉達 黑客
熱門文章
剛剛,國產AI自己造了AI,全球首例!
2026-05-26
卡帕西Anthropic最新頭銜:技術員工(MTS)
2026-05-26
OpenAI大神教你如何榨乾Codex
2026-05-23
“五類人AI替代不了,企業做第二名最穩妥” | 崑崙萬維方漢@AIGC2026
2026-05-23
7B打敗o3、GPT-5!醫學AI智能體讓模型學會“看哪裏、怎麼看”
2026-05-28
掃碼關注量子位
量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1