AI News HubLIVE
站内改写7 分鐘閱讀

近2億美元!VAST完成新一輪融資,正式披露世界模型路線

通用人工智能公司VAST宣佈完成近2億美元融資,並正式披露其世界模型路線Project Eden。該方案將狀態推演與視覺呈現原生解耦,支持環境持久化、場景複用和多人實時交互,面向消費創作者和具身智能仿真兩大場景。

來源量子位作者: 听雨

近2億美元!VAST完成新一輪融資,正式披露世界模型路線 – 量子位

近2億美元!VAST完成新一輪融資,正式披露世界模型路線

聽雨 2026-06-01 17:46:32

來源:量子位

場景永不消失,多人真正同屏

聽雨 發自 凹非寺 量子位 | 公眾號 QbitAI

通用人工智能公司VAST,帶來兩個新消息:

一,完成近2億美元的新一輪融資;二,終於正式對外披露自己的世界模型路線。

VAST近期完成合計近2億美元的A+及A++輪融資,領投方為渶策資本、國壽長三角科創基金。

投資方匯聚了頭部市場化基金、國資平台與產業龍頭戰投,包括深圳市人工智能終端產業基金(產業方為全球頭部終端廠商榮耀)、上海半導體產投等產業投資方,以及深創投、元生資本、沃賦創投與方廣資本等一線財務資本。

同時,春華創投、靖亞資本、BV百度風投、東方嘉富等老股東亦持續超額追投。

這也是VAST繼今年3月完成5000萬美元A輪融資後,再度獲得資本加持。

拿到這筆錢的同時,VAST也帶來了他們最新的世界模型進展:Project Eden。

區別於業內「動作條件視頻生成」與「靜態3D場景生成」等常規路徑,Project Eden創造性地將底層狀態推演與視覺呈現進行了原生解耦。

AI 3D和世界模型,本就在同一條河流。VAST此番正式對外披露世界模型路線,也在情理之中。

VAST首席科學家曹炎培表示:

從第一天開始,VAST真正在做的,是解鎖下一代互動內容的底層基礎設施,也是為通用人工智能打造專屬世界底座。

整體路徑分為兩大階段:第一步完成「造萬物」;第二步實現「造世界」,為用户和智能體提供可演化、可試錯的完整虛擬環境。

造萬物,是用AI生成天然兼容工業管線的3D資產。

而造世界則再往前走一步:構建可以動態推演、多人實時交互、狀態永久留存的世界。

Project Eden:全新世界模型技術路線

行業裏流傳着一個梗:「什麼模型都可以叫世界模型」。

這並不全是在開玩笑,現在世界模型的技術路線紛繁複雜,每一家都有自己核心押注的bet。

Google DeepMind的Genie走的是單體視頻模型路線,把空間、世界、交互、視角全部壓縮進像素歷史。

但鏡頭一旦移開,模型就不知道那個地方發生了什麼。它缺乏獨立的狀態概念,想支持多玩家交互,在架構上幾乎不可能。

「AI教母」李飛飛創立的World Labs,走的是另一條路。

Marble強調空間結構和幾何一致性,從一張圖就能生成持久的3D世界,空間感知做得不錯。

但這條路剝離了時間維度和物理運行邏輯,目前還停留在靜態3D場景的重建,缺乏時間維度上狀態的變化和推演。

Yann LeCun力推的JEPA,主張在潛空間裏維護內部狀態進行推演。這與VAST在底層哲學上有一定一致性,但前者目前更多停留在學術綱領上。

VAST認為,一套合格的通用世界模型,必須同時解決兩大核心命題,第一是定義世界當下的客觀狀態(State),第二是驅動世界持續自主演化(Transition)。

他們的最終目標是構造可交互的虛擬世界,這是一個能夠支持多人交互、環境永久存在、隨時可以重訪的世界。

Project Eden的技術核心,是把底層狀態推演與視覺呈現進行原生解耦。

具體來説,系統分為三層。

底層是結構化狀態層,維護着一個跨時間持續存在的全局世界狀態。這個狀態獨立於相機視角,不管鏡頭轉到哪裏,世界的底層都在持續運轉。

它是一種緊湊的隱式表徵,記錄着場景幾何結構、物體身份屬性和全局事件邏輯,計算效率有保證。

中間是條件接口層,作用是把底層3D狀態,轉化為特定視角下的語義和幾何約束。

所有視角的渲染,都同源於同一個底層世界,物理一致性從架構層面就有保證,不是靠模型「猜」出來的。

上層是生成式渲染層,拿到狀態約束之後,專注補全紋理、光照、材質和局部動態細節。

它不再需要盲猜畫面結構,算力全部集中在渲染本身。

問題在於,為什麼一定要把狀態和渲染拆開,不能放在一個模型裏一起訓練?

曹炎培舉了個例子:假設玩家按下滅火器,這個時候世界下一刻會發生什麼?在一個緊湊的狀態空間裏推理這件事,給定足夠的數據,其實並不複雜。

但如果把「狀態預測」和「畫面呈現」耦合在同一個模型裏,兩件事同時要考,不只要判斷滅火器粉末噴出去了沒有,還要保證噴出去的樣子足夠逼真,模型的負擔會以指數級增加。

解耦之後,狀態模型只負責推理「發生了什麼」,渲染模型只負責呈現「看起來怎樣」,兩者都能做得更專、更準。

而支撐這套架構跑起來的,是兩層數據策略。

L1是海量互聯網視頻自標註。

依託Tripo積累的3D基礎模型能力,對互聯網2D視頻進行反向解構,提取深度、相機位姿與幾何軌跡,把普通視頻提煉成底層推演態和視覺渲染態都有的雙態數據,給模型打下泛化底座。

互聯網視頻的體量是合成數據無法比擬的,這是L1能夠持續scale的根本。

L2是引擎合成數據,負責精準。

遊戲引擎天生就同時運行兩種狀態,是最天然的雙態數據來源。

但如果靠人工錄製,就算有1萬台機器,也很難找1萬個人坐在電腦前持續操作出足夠多樣的內容。

VAST的做法是讓Agent在引擎環境裏7×24小時不間斷探索,自動錄製帶有精準3D狀態標註的訓練配對數據,幫模型學會嚴密的物理演變和控制邏輯。

三大能力與三大落地場景

得益於對狀態的解耦,Project Eden跨過了單體視頻模型的三座大山。

第一,原生的環境持久化。

對象離開相機視錐之後,依然在底層狀態中持續運轉。

用户轉回視角時,模型查詢的是確定存在的客觀狀態,而不是靠歷史幀重新生成,從而實現了長程記憶和一致性。

第二,場景自由複用與模塊化。

傳統視頻世界模型是一鏡到底的盲盒,時間線不可逆。

而Project Eden允許用户反覆介入一個正在運轉的底層世界狀態,用户對場景的破壞、改造等操作被真實留存,後續進入者看到的是完全一致的結果。

同一個底層世界狀態,支持反覆介入與模塊化搭建。無需重複生成場景,從而實現全域狀態延續與高效複用。

第三,原生多玩家交互。

狀態演化與渲染流程相互解耦後,單一底層世界可同時承載大量真人用户與AI智能體多併發在線交互。

如果是單體視頻模型,處理多玩家時,每個視角各自維護一套像素歷史,算力會隨人數指數爆炸。

而Project Eden的底層狀態被所有智能體共享並同步推演,系統只需根據各自座標分別渲染多路畫面,算力成本是線性可控的。

真正的多人在線世界,在架構上第一次成立了。

這三大能力,也打開了兩個方向的落地空間:

面向消費創作者,是AI原生沙盒平台。

它支持用户以自然語言或簡易動作,一鍵創作可多人共享的互動數字世界,內容持續累積,不需要每次重新生成。

面向科研,則是具身智能的高質量仿真基座。

具備穩定物理邏輯、時序一致、可長期持久化的生成式世界,天然支持集羣式智能體訓練和多智能體協同研究。

曹炎培表示,VAST的願景是,讓每個人都能親手創造、自由探索無數個可交互的世界。

Project Eden這個名字本身也很有意思,它來自於西方神話中的伊甸園。

《創世記》裏,人類因偷食禁果被逐出伊甸園。

整個西方文明敍事的開端,就是一次人類的好奇心被懲罰——在創世之初,求知本身就要付出代價。

而Project Eden想要改寫這個開端:世界可以擁有成千上萬座花園,朝着無需批准的方向恣意生長,結出無數種果實,等待所有人採摘和品嚐。

從造萬物到造世界,這條路有根可循

正如曹炎培所説,從AI 3D到世界模型,其實是緊密相關的,可以分為兩步走:從造萬物到造世界。

李飛飛也曾指出,空間智能是機器在3D空間和時間中感知、推理和行動的能力,在她看來,AI發展必然邁向對三維世界的理解。

而謝賽寧和李飛飛的合作研究明確指出,空間推理對人類智能至關重要,視覺空間智能在現實世界的應用比以往任何時候都更近了。

3D能力,是世界模型繞不過去的地基。

問題是,誰在這條路上積累最深?

VAST必然榜上有名。它坐擁全世界最大的高質量原生3D數據集,旗下Tripo系列產品已成為全球使用最廣泛的通用3D生成大模型之一。

其生態合作覆蓋阿里巴巴、騰訊、字節、網易、上汽、拓竹、羣核科技等頭部企業,旗下Tripo Studio平台也已聚集超過2000萬創作者。

過去三年,Tripo系列模型每一次迭代都成為全球行業標杆。

2026年3月正式上線的Tripo H3.1,以雕塑級幾何細節刷新了AI 3D的精度天花板。

Tripo P1.0則是全球唯一能在數秒內輸出生產級網格的3D大模型,較市面其他方案提速百倍,代際領先。

Tripo 8K 貼圖是業內首款原生8K AI貼圖算法,將過去資深貼圖師需要3至5天才能完成的工作壓縮至2分鐘以內,單張邊際成本近乎為零,3A渲染畫質由AI原生呈現。

智能部件拆分Segmentation V2依託升級後的多模態3D結構理解模型,引入三檔顆粒度控制,覆蓋3D打印、遊戲開發、精細模組等不同下游場景,「生成—分件—補全—打印」全流程被進一步壓縮。

而在開源生態上,VAST已歷經三季開源計劃。

第一季與Stability AI聯合開源TripoSR,將單圖3D生成速度壓縮至0.5秒級別。

第二季陸續釋放TripoSG、TripoSF、UniRig、HoloPart等八大項目,UniRig穩坐全球3D自動綁骨開源方案標杆。

第三季聚焦動態互動內容,與清華大學聯合開源TripoSplat(DeG)、SkinTokens,與香港大學聯合開源AniGen,從靜態生成到可動資產,再到動態交互,脈絡清晰。

三年累計對外開源項目超30個,覆蓋從基礎表徵到生成管線的完整技術棧。

可以説,VAST是目前全球商業化落地最深的AI 3D公司之一。

VAST長期積累的深度估計、相機位姿、幾何結構、多視角一致性能力,直接支撐了Project Eden的數據策略和架構設計。

從Tripo系列的3D生成,到Project Eden的狀態與渲染解耦,這是一條邏輯連貫的技術演進路線。

曹炎培表示,推進世界模型的研發,也與他們從第一天開始就樹立的「造世界」的目標完全吻合,是一個水到渠成的過程。

VAST背後的創始團隊,也有着深厚的技術積累。

宋亞宸,創始人兼CEO,是一位97年的創始人。

他曾在商湯科技推動多個AI項目落地,參與創立通用大模型公司MiniMax。用他自己的話説,是「因為相信所以看見」的創業者。

梁鼎,CTO,清華大學本碩博,人工智能領域深耕十餘年,發表論文50餘篇,擁有100多項專利,累計引用上萬次,曾任商湯科技通用模型負責人。

曹炎培,首席科學家,清華大學計算機系本科及博士,主導threestudio、TripoSR等開源項目累計獲超15000 GitHub星標。

他曾聯合創立Owlii後被快手收購,後任騰訊ARC實驗室與AI Lab專家研究員,Dream3D、TGS等工作引領文生3D和圖生3D方向,是國內生成式3D領域最具代表性的研究者之一。

VAST自己也清楚,還有兩塊硬骨頭要啃。

一塊是更高複雜度場景的物理演化:未來的世界底座,需要支持更豐富的物理動態、更廣闊的自由視角,以及顆粒度更細的對象間交互。

另一塊是狀態的自主維護:完整的閉環需要一個強大的狀態轉移模型,能夠完全根據智能體的交互行為與視覺觀測,持續自監督地更新底層狀態,不再依賴外部標註和引擎輔助。

這一步實現之後,世界才真正「活」起來。

通向世界模型的征程,才剛剛起步,技術路線遠沒有收斂。

而在起點,VAST就做了一個不跟隨的選擇,提出了一條全新的技術路線。

世界模型最終長什麼樣,沒有人知道。但至少在這個起點上,VAST已經走出了自己的方向。

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

聽雨

幫Gemini拿下IMO金牌的關鍵先生,差點成了職業鋼琴家2026-05-30

7B打敗o3、GPT-5!醫學AI智能體讓模型學會“看哪裏、怎麼看”2026-05-28

5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了2026-05-27

Codex自我蒸餾玩法火了!OpenAI員工親授:複製粘貼就能讓AI消滅重複勞動2026-05-27

熱門文章

剛剛,國產AI自己造了AI,全球首例!

2026-05-26

卡帕西Anthropic最新頭銜:技術員工(MTS)

2026-05-26

4nm!比亞迪自研AI芯片來了:製程對齊英偉達,算力拉爆特斯拉

2026-05-29

面壁智能「開源周」:一場定義端側 AI 終局的系統性「亮劍」

2026-05-29

DeepSeek V4芯模協同背後,國產算力生態開始飛輪加速

2026-05-28

掃碼關注量子位

量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1