2026-06-01 17:46 UTC+8站內改寫7 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

近2億美元！VAST完成新一輪融資，正式披露世界模型路線

通用人工智能公司VAST宣佈完成近2億美元融資，並正式披露其世界模型路線Project Eden。該方案將狀態推演與視覺呈現原生解耦，支持環境持久化、場景複用和多人實時交互，面向消費創作者和具身智能仿真兩大場景。

來源量子位作者: 听雨

近2億美元！VAST完成新一輪融資，正式披露世界模型路線 – 量子位

聽雨 2026-06-01 17:46:32

來源：量子位

場景永不消失，多人真正同屏

聽雨發自凹非寺量子位 | 公眾號 QbitAI

通用人工智能公司VAST，帶來兩個新消息：

一，完成近2億美元的新一輪融資；二，終於正式對外披露自己的世界模型路線。

VAST近期完成合計近2億美元的A+及A++輪融資，領投方為渶策資本、國壽長三角科創基金。

投資方匯聚了頭部市場化基金、國資平台與產業龍頭戰投，包括深圳市人工智能終端產業基金（產業方為全球頭部終端廠商榮耀）、上海半導體產投等產業投資方，以及深創投、元生資本、沃賦創投與方廣資本等一線財務資本。

同時，春華創投、靖亞資本、BV百度風投、東方嘉富等老股東亦持續超額追投。

這也是VAST繼今年3月完成5000萬美元A輪融資後，再度獲得資本加持。

拿到這筆錢的同時，VAST也帶來了他們最新的世界模型進展：Project Eden。

區別於業內「動作條件視頻生成」與「靜態3D場景生成」等常規路徑，Project Eden創造性地將底層狀態推演與視覺呈現進行了原生解耦。

AI 3D和世界模型，本就在同一條河流。VAST此番正式對外披露世界模型路線，也在情理之中。

VAST首席科學家曹炎培表示：

從第一天開始，VAST真正在做的，是解鎖下一代互動內容的底層基礎設施，也是為通用人工智能打造專屬世界底座。

整體路徑分為兩大階段：第一步完成「造萬物」；第二步實現「造世界」，為用户和智能體提供可演化、可試錯的完整虛擬環境。

造萬物，是用AI生成天然兼容工業管線的3D資產。

而造世界則再往前走一步：構建可以動態推演、多人實時交互、狀態永久留存的世界。

Project Eden：全新世界模型技術路線

行業裏流傳着一個梗：「什麼模型都可以叫世界模型」。

這並不全是在開玩笑，現在世界模型的技術路線紛繁複雜，每一家都有自己核心押注的bet。

Google DeepMind的Genie走的是單體視頻模型路線，把空間、世界、交互、視角全部壓縮進像素歷史。

但鏡頭一旦移開，模型就不知道那個地方發生了什麼。它缺乏獨立的狀態概念，想支持多玩家交互，在架構上幾乎不可能。

「AI教母」李飛飛創立的World Labs，走的是另一條路。

Marble強調空間結構和幾何一致性，從一張圖就能生成持久的3D世界，空間感知做得不錯。

但這條路剝離了時間維度和物理運行邏輯，目前還停留在靜態3D場景的重建，缺乏時間維度上狀態的變化和推演。

Yann LeCun力推的JEPA，主張在潛空間裏維護內部狀態進行推演。這與VAST在底層哲學上有一定一致性，但前者目前更多停留在學術綱領上。

VAST認為，一套合格的通用世界模型，必須同時解決兩大核心命題，第一是定義世界當下的客觀狀態（State），第二是驅動世界持續自主演化（Transition）。

他們的最終目標是構造可交互的虛擬世界，這是一個能夠支持多人交互、環境永久存在、隨時可以重訪的世界。

Project Eden的技術核心，是把底層狀態推演與視覺呈現進行原生解耦。

具體來説，系統分為三層。

底層是結構化狀態層，維護着一個跨時間持續存在的全局世界狀態。這個狀態獨立於相機視角，不管鏡頭轉到哪裏，世界的底層都在持續運轉。

它是一種緊湊的隱式表徵，記錄着場景幾何結構、物體身份屬性和全局事件邏輯，計算效率有保證。

中間是條件接口層，作用是把底層3D狀態，轉化為特定視角下的語義和幾何約束。

所有視角的渲染，都同源於同一個底層世界，物理一致性從架構層面就有保證，不是靠模型「猜」出來的。

上層是生成式渲染層，拿到狀態約束之後，專注補全紋理、光照、材質和局部動態細節。

它不再需要盲猜畫面結構，算力全部集中在渲染本身。

問題在於，為什麼一定要把狀態和渲染拆開，不能放在一個模型裏一起訓練？

曹炎培舉了個例子：假設玩家按下滅火器，這個時候世界下一刻會發生什麼？在一個緊湊的狀態空間裏推理這件事，給定足夠的數據，其實並不複雜。

但如果把「狀態預測」和「畫面呈現」耦合在同一個模型裏，兩件事同時要考，不只要判斷滅火器粉末噴出去了沒有，還要保證噴出去的樣子足夠逼真，模型的負擔會以指數級增加。

解耦之後，狀態模型只負責推理「發生了什麼」，渲染模型只負責呈現「看起來怎樣」，兩者都能做得更專、更準。

而支撐這套架構跑起來的，是兩層數據策略。

L1是海量互聯網視頻自標註。

依託Tripo積累的3D基礎模型能力，對互聯網2D視頻進行反向解構，提取深度、相機位姿與幾何軌跡，把普通視頻提煉成底層推演態和視覺渲染態都有的雙態數據，給模型打下泛化底座。

互聯網視頻的體量是合成數據無法比擬的，這是L1能夠持續scale的根本。

L2是引擎合成數據，負責精準。

遊戲引擎天生就同時運行兩種狀態，是最天然的雙態數據來源。

但如果靠人工錄製，就算有1萬台機器，也很難找1萬個人坐在電腦前持續操作出足夠多樣的內容。

VAST的做法是讓Agent在引擎環境裏7×24小時不間斷探索，自動錄製帶有精準3D狀態標註的訓練配對數據，幫模型學會嚴密的物理演變和控制邏輯。

三大能力與三大落地場景

得益於對狀態的解耦，Project Eden跨過了單體視頻模型的三座大山。

第一，原生的環境持久化。

對象離開相機視錐之後，依然在底層狀態中持續運轉。

用户轉回視角時，模型查詢的是確定存在的客觀狀態，而不是靠歷史幀重新生成，從而實現了長程記憶和一致性。

第二，場景自由複用與模塊化。

傳統視頻世界模型是一鏡到底的盲盒，時間線不可逆。

而Project Eden允許用户反覆介入一個正在運轉的底層世界狀態，用户對場景的破壞、改造等操作被真實留存，後續進入者看到的是完全一致的結果。

同一個底層世界狀態，支持反覆介入與模塊化搭建。無需重複生成場景，從而實現全域狀態延續與高效複用。

第三，原生多玩家交互。

狀態演化與渲染流程相互解耦後，單一底層世界可同時承載大量真人用户與AI智能體多併發在線交互。

如果是單體視頻模型，處理多玩家時，每個視角各自維護一套像素歷史，算力會隨人數指數爆炸。

而Project Eden的底層狀態被所有智能體共享並同步推演，系統只需根據各自座標分別渲染多路畫面，算力成本是線性可控的。

真正的多人在線世界，在架構上第一次成立了。

這三大能力，也打開了兩個方向的落地空間：

面向消費創作者，是AI原生沙盒平台。

它支持用户以自然語言或簡易動作，一鍵創作可多人共享的互動數字世界，內容持續累積，不需要每次重新生成。

面向科研，則是具身智能的高質量仿真基座。

具備穩定物理邏輯、時序一致、可長期持久化的生成式世界，天然支持集羣式智能體訓練和多智能體協同研究。

曹炎培表示，VAST的願景是，讓每個人都能親手創造、自由探索無數個可交互的世界。

Project Eden這個名字本身也很有意思，它來自於西方神話中的伊甸園。

《創世記》裏，人類因偷食禁果被逐出伊甸園。

整個西方文明敍事的開端，就是一次人類的好奇心被懲罰——在創世之初，求知本身就要付出代價。

而Project Eden想要改寫這個開端：世界可以擁有成千上萬座花園，朝着無需批准的方向恣意生長，結出無數種果實，等待所有人採摘和品嚐。

從造萬物到造世界，這條路有根可循

正如曹炎培所説，從AI 3D到世界模型，其實是緊密相關的，可以分為兩步走：從造萬物到造世界。

李飛飛也曾指出，空間智能是機器在3D空間和時間中感知、推理和行動的能力，在她看來，AI發展必然邁向對三維世界的理解。

而謝賽寧和李飛飛的合作研究明確指出，空間推理對人類智能至關重要，視覺空間智能在現實世界的應用比以往任何時候都更近了。

3D能力，是世界模型繞不過去的地基。

問題是，誰在這條路上積累最深？

VAST必然榜上有名。它坐擁全世界最大的高質量原生3D數據集，旗下Tripo系列產品已成為全球使用最廣泛的通用3D生成大模型之一。

其生態合作覆蓋阿里巴巴、騰訊、字節、網易、上汽、拓竹、羣核科技等頭部企業，旗下Tripo Studio平台也已聚集超過2000萬創作者。

過去三年，Tripo系列模型每一次迭代都成為全球行業標杆。

2026年3月正式上線的Tripo H3.1，以雕塑級幾何細節刷新了AI 3D的精度天花板。

Tripo P1.0則是全球唯一能在數秒內輸出生產級網格的3D大模型，較市面其他方案提速百倍，代際領先。

Tripo 8K 貼圖是業內首款原生8K AI貼圖算法，將過去資深貼圖師需要3至5天才能完成的工作壓縮至2分鐘以內，單張邊際成本近乎為零，3A渲染畫質由AI原生呈現。

智能部件拆分Segmentation V2依託升級後的多模態3D結構理解模型，引入三檔顆粒度控制，覆蓋3D打印、遊戲開發、精細模組等不同下游場景，「生成—分件—補全—打印」全流程被進一步壓縮。

而在開源生態上，VAST已歷經三季開源計劃。

第一季與Stability AI聯合開源TripoSR，將單圖3D生成速度壓縮至0.5秒級別。

第二季陸續釋放TripoSG、TripoSF、UniRig、HoloPart等八大項目，UniRig穩坐全球3D自動綁骨開源方案標杆。

第三季聚焦動態互動內容，與清華大學聯合開源TripoSplat（DeG）、SkinTokens，與香港大學聯合開源AniGen，從靜態生成到可動資產，再到動態交互，脈絡清晰。

三年累計對外開源項目超30個，覆蓋從基礎表徵到生成管線的完整技術棧。

可以説，VAST是目前全球商業化落地最深的AI 3D公司之一。

VAST長期積累的深度估計、相機位姿、幾何結構、多視角一致性能力，直接支撐了Project Eden的數據策略和架構設計。

從Tripo系列的3D生成，到Project Eden的狀態與渲染解耦，這是一條邏輯連貫的技術演進路線。

曹炎培表示，推進世界模型的研發，也與他們從第一天開始就樹立的「造世界」的目標完全吻合，是一個水到渠成的過程。

VAST背後的創始團隊，也有着深厚的技術積累。

宋亞宸，創始人兼CEO，是一位97年的創始人。

他曾在商湯科技推動多個AI項目落地，參與創立通用大模型公司MiniMax。用他自己的話説，是「因為相信所以看見」的創業者。

梁鼎，CTO，清華大學本碩博，人工智能領域深耕十餘年，發表論文50餘篇，擁有100多項專利，累計引用上萬次，曾任商湯科技通用模型負責人。

曹炎培，首席科學家，清華大學計算機系本科及博士，主導threestudio、TripoSR等開源項目累計獲超15000 GitHub星標。

他曾聯合創立Owlii後被快手收購，後任騰訊ARC實驗室與AI Lab專家研究員，Dream3D、TGS等工作引領文生3D和圖生3D方向，是國內生成式3D領域最具代表性的研究者之一。

VAST自己也清楚，還有兩塊硬骨頭要啃。

一塊是更高複雜度場景的物理演化：未來的世界底座，需要支持更豐富的物理動態、更廣闊的自由視角，以及顆粒度更細的對象間交互。

另一塊是狀態的自主維護：完整的閉環需要一個強大的狀態轉移模型，能夠完全根據智能體的交互行為與視覺觀測，持續自監督地更新底層狀態，不再依賴外部標註和引擎輔助。

這一步實現之後，世界才真正「活」起來。

通向世界模型的征程，才剛剛起步，技術路線遠沒有收斂。

而在起點，VAST就做了一個不跟隨的選擇，提出了一條全新的技術路線。

世界模型最終長什麼樣，沒有人知道。但至少在這個起點上，VAST已經走出了自己的方向。

聽雨

幫Gemini拿下IMO金牌的關鍵先生，差點成了職業鋼琴家2026-05-30

7B打敗o3、GPT-5！醫學AI智能體讓模型學會“看哪裏、怎麼看”2026-05-28

5秒完成3D場景編輯，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了2026-05-27

Codex自我蒸餾玩法火了！OpenAI員工親授：複製粘貼就能讓AI消滅重複勞動2026-05-27