2026-05-25 14:56 UTC+8站內改寫9 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

“VLA和世界模型都不是終局，會有物理世界獨有的模型” | 螞蟻靈波沈宇軍@AIGC2026

在2026中國AIGC產業峰會上，螞蟻靈波首席科學家沈宇軍提出，大模型在數字世界享受了網際網路資料紅利，但機器人物理世界資料仍是空白。他認為VLA和世界模型都不會是具身智慧的終局，未來將融合為物理世界獨有的模型。螞蟻靈波定位做“通用大腦”，並強調空間感知能力的重要性。預計2028年左右，人人都能為機器人提供資料，迎來具身智慧的ChatGPT時刻。

來源量子位作者: 一水

“VLA和世界模型都不是終局，會有物理世界獨有的模型” | 螞蟻靈波沈宇軍@AIGC2026 – 量子位

一水 2026-05-25 14:56:42

來源：量子位

“要做機器人時代的安卓系統”

大模型的爆發，吃的是網際網路幾十年積累的資料紅利。

可當AI從數字世界邁向物理世界，螞蟻靈波科技首席科學家沈宇軍發現：機器人的資料，幾乎還是一片空白。

此前，他曾在公開演講中率先提出AIGA的概念——AI 2.0下半場，人工智慧要從數字世界的“娛樂”走向物理世界的“幹活”，從Content（內容）生成走向Action（動作）生成。

在2026中國AIGC產業峰會的GenAI Talk環節，沈宇軍與量子位聯合創始人兼總編輯李根圍繞這一話題展開了一場深度對話，主題為《AI 2.0下半場：從AIGC到AIGA》。

也正是從“資料”這條主線出發，他丟擲了一個讓現場做VLA、做世界模型的人都“小小一震”的判斷：

單獨的VLA和世界模型，都不會是具身智慧的終局。

就像人類既能把各種資訊融合在一起，也會預測未來事情的走向，從智慧的角度，二者勢必要結合，缺一不可。

而它們最終會走向什麼？沈宇軍目前給出的答案是——一個獨屬於物理世界的模型。

為了完整體現沈宇軍的思考，在不改變原意的基礎上，量子位對演講內容進行了編輯整理，希望能給你帶來更多啟發。

2026中國AIGC產業峰會是由量子位主辦的行業峰會，近20位產業代表與會討論。線下參會觀眾超千人，線上直播觀眾近400萬，獲得了主流媒體的廣泛關注與報道。

核心觀點梳理

大模型踩中了網際網路過去幾十年的資料紅利，但機器人的物理世界資料還存在很大的空白，AI下半場更關鍵的是資料如何從數字世界過渡到物理世界。

想要做存在於物理世界的通用機器人大腦，關鍵的一環是空間感知能力。如何把感測器的輸入變成更好的資訊傳遞給模型，從感測器的輸入開始去理解這個世界，很關鍵。

對於VLA和世界模型的技術路線之爭，首先無論技術路線怎麼演進，資料都是離不開的。其次，這兩條路都不會是終局。機器人資料量積累到一定程度的時候，二者一定會走向融合，催生出獨屬物理世界的模型。

判斷：1～2年後，會出現一些標杆樣例，讓模型真實投產；2～3年，該樣例會被批次複製，越來越多產業會應用模型；在這之後，機器人會嘗試以某種方式進入C端；然後逐漸真正普及到家庭。

人人都能為機器人產生資料的時候，就是具身智慧的ChatGPT時刻。

以下為對話全文：

“大模型踩中了網際網路幾十年的資料紅利”

李根：AIGC上半場大家都在談焦慮，但看得更遠一點，方向確定後，剩下的就是實踐。我們每年都希望找一位既有學術前沿洞察，又是產業實踐者的嘉賓——既懂Know，也懂Know how。沈博就是這樣的嘉賓。我們先從過去到現在，AI 2.0從ChatGPT起步，經歷了寫作、畫畫到程式設計，你怎麼看這條路徑？

沈宇軍：大模型從ChatGPT的突破起步，最開始大家覺得好玩，後來慢慢走向實用，尤其是最近Coding能力的爆發。我本身做機器人行業，從這個視角看，大模型其實是踩中了網際網路過去幾十年積累的資料紅利。

怎麼說呢？網際網路積累了海量的文字、影像、影片素材，這些資料恰好碰上了算力的發展，兩者融合到一起，在爆發的時候正好把網際網路幾十年的資料積累用起來了。

再進一步看，自動駕駛也發展了將近十幾年，慢慢積累了屬於自己的資料——從最初車上沒那麼多感測器，到現在人類開車時資料可以被自動記錄下來。反觀機器人行業，資料目前還是一個很大的空白。我們沒有幾十年的網際網路積累，也沒有十年的自動駕駛沉澱，機器人現在的資料非常短缺。

有人說AI終於走到下半場，從數字世界往物理世界走，我們也提出了AIGA（AI生成Action）的概念。但做模型的核心其實是在做資料。我覺得更關鍵的問題是：資料到底怎麼演變？怎麼讓資料真正從數字世界過渡到物理世界？

李根：所以物理空間的資料是空白，也是新大陸？

沈宇軍：對。過去一年本體廠商越來越多，本體本身發展得也不錯。今年能看到一個明顯的趨勢：各種各樣的資料採集方式開始湧現。這說明大家逐漸意識到，具身智慧——具身是一部分，智慧是一部分——要做智慧就離不開資料。只是大家還沒想清楚：物理智慧到底需要什麼樣的資料？以及怎麼儘可能地把資料標準化？

標準化是很重要的事。Call back一下，大模型的成功很大程度上得益於網際網路把資料標準化了。Coding、對話這些領域，網際網路已經搞得非常好了，現在更多是去享受這個紅利。

但到了物理世界，從眼下五花八門的數採方式來看，大家雖然意識到了資料的重要性，卻還沒有找到那條最正確的路。我相信在不遠的將來，資料這件事也會逐漸收斂。

“AIGC還不夠，模型要能生產生產力”

李根：你們提出了AIGA的應用正規化，能分享一下嗎？為什麼提AIGA？

沈宇軍：還是從模型落地的角度來講。大家從最開始做Chat，到現在做Coding，模型正在慢慢往生產方向遷移。在數字世界，程式設計、內容創作都是很好的生產方向。但我們畢竟活在物理世界，真正想要的有體感的服務，還是需要物理世界中的具體互動。

所以我們覺得只有AIGC可能還不夠。到最後，智慧到底能不能幫我們解決一些具體的問題？大家都說Agent，Agent能在數字世界幫我們解決很多流程問題、呼叫一些工具，但很多讓人真正有體感的東西還是要有操作。比如我現在就是想喝一杯咖啡——這個場景可能有點老生常談了。

尤其我們做具身的，更希望這個模型不止能生產內容，更能生產所謂的生產力。

李根：這個生產力有什麼樣的想象力和落地場景？

沈宇軍：這應該是過去一段時間行業一直在探討的。比如，機器人已經進入工廠、物流、倉庫，去搬貨、做分揀。我們也和本體廠商合作，在這些場景中做了一些探索。前不久，我們的機器人還進入了藥房的線下零售門店。

如果真的有幸能看到那麼一天——機器人發展得非常好、非常智慧——那生活中的方方面面都可以落地。舉個例子，剛才上臺前，需要工作人員把椅子搬上來，工作人員要專門在那裡等著。如果時間上有調整，他就得一直在旁邊等著。

如果有一天這件事機器人能做，它站在那裡也無所謂，它知道什麼時候該上場，並且把事做好，那就能釋放出很多勞動力，讓大家去做更有價值的事情。我相信機器人會逐漸滲透到生活的方方面面。

李根：所以每一個需要人的地方，未來都可能有機器人替代或執行？

沈宇軍：對，我覺得更多是把人釋放到更需要人的事情上，比如創造、文化這些更偏人類活動的方面，而不是去做枯燥重複的體力活。

“靈波的定位是做通用大腦，有點像手機的作業系統”

李根：螞蟻靈波的技術選擇和定位是什麼？

沈宇軍：靈波的定位比較清晰：做智慧側。怎麼理解？

我打個不一定恰當的比方——有點像手機的作業系統。在我們看來，機器人不管是進入企業還是進入千家萬戶，大家對硬體的訴求一定是不一樣的，不可能只有一款統一的機器人。就像大家用手機，華為、小米、蘋果，各有各的偏好，這是個性的需求。企業更是如此：有的地方需要力氣大的機器人，有的需要更敏捷的機器人。

但這些機器人有一個共同的需求：智慧。智慧不是工業機器人那種按固定軌跡、在固定時間做固定的事。生活中很多事是隨機的，智慧的含義就是要能應對這些隨機性。像我剛才說的，大會時間調整了，它能不能知道什麼時候該上場搬椅子？這是一個簡單的例子。

所以靈波的定位很清晰：我們希望做一個相對通用的“大腦”，讓所有機器人在這個大腦下更好地完成任務。

物理世界相比數字世界有兩個優勢。

第一，模態肯定更多——有聽覺、溫度、觸覺等等。這些模態在數字世界不太好獲得，但不代表它們不重要，因為很多時候智慧正是透過越來越多的模態疊加來實現的。現在數字世界講多模態，其實還是逃不開文本、影像、影片、聲音。你能讓它感受到“力”嗎？不太能。所以物理世界因為模態更豐富，反而可能催生出更強的智慧。

第二，物理世界能拿到真實的反饋。在數字世界，任務大多是人為定義的——人給一個標準，希望模型給出某種輸出。但在物理世界，很多東西是大自然定義的：比如一個蘋果，你鬆手它一定會落地，不需要任何人定義，這是現實規律。因為有了與物理世界的連線，智慧很可能能從現實裡直接學習，甚至超出人為設定的損失函式或獎勵函式。

基於這兩點優勢，物理智慧的想象空間非常大。當然，目前變數太多，需要驗證的東西也太多，很多因素耦合在一起，行業會先分出很多派別，但慢慢一定會收斂。

“VLA和世界模型都不是終局，會有物理世界獨有的模型”

李根：總結一下，靈波做的是宇樹等本體廠商的補充，提供大腦/作業系統；物理AI可能催生更本質的智慧。現在大家對路線有不同探討，比如VLA、世界模型等。你怎麼看？

沈宇軍：回答VLA之前，我先說一下對具身智慧技術路線的整體判斷。

大家經常討論怎麼做模態融合，主要是VLA和世界模型兩條路。但我想提另一個點——靈波要做通用大腦，而且是存在於物理世界的大腦，我們佈局中有一個很關鍵、但行業很少提到的環節：空間感知能力，也有人叫空間智慧。

機器人生活在物理世界，輸入來自各種感測器，不是簡單的文字或照片。物理世界有深度、距離、力等感測器。把這些輸入變成有效資訊，是具身智慧非常重要的一環。但現在大家更熱衷於討論最核心的那塊——怎麼把感測器輸入變成更好的資訊傳給模型，反而容易忽略輸入端。

我的看法是，不管最終核心模型的技術路線怎麼變，從感測器輸入開始更好地理解這個世界，是非常關鍵的。靈波在做具身大腦的過程中，很關鍵的一環就是從輸入端開始，做好空間感知。

再回到大家最愛聊的核心部分。今年1月底我們對外講了一些看法，兩條路線我們都摸過：VLA和VA（現在也叫WAM，世界動作模型）。

我的體感是：第一，核心還是資料。不管正規化怎麼變，把資料摸清楚是關鍵能力。現在大家喜歡提資料量——幾萬小時、十幾萬小時，甚至百萬小時。但只提數量不提質量是不科學的。到底什麼樣的資料是好資料？這很關鍵。

我們過去做VLA，很重要的一件事就是把資料這條路趟通——拿到一條資料，該怎麼處理、該不該送給模型，這是核心鏈路。不管技術路線怎麼演進，資料是逃不開的。

第二，我們兩條路都摸了，我的判斷是：兩條路線都不會是終局。為什麼？因為VLA和世界模型解決的是不同問題。VLA擅長人機互動，它是從多模態模型往後延伸一步，相當於多模態模型在物理世界的應用。世界模型則像影片生成模型往物理世界的應用，更擅長對未來的判斷。

我覺得人類這兩方面能力都具備：一方面能融合各種資訊，另一方面對未來有預判，做事之前會大概想想結果會怎樣。對機器人而言，這兩種能力必須結合，缺一不可——不能只能預測未來卻無法融合模態，也不能只能融合模態卻無法預測未來。

在我看來，VLA在產業界更好落地、效率更高，所以做的人更多。但世界模型如果真能預測未來，對機器人一定有幫助。我判斷，當機器人資料量積累到一定程度時，這兩條路線一定會深度融合。

這種融合甚至不是像現在這樣——把數字世界的模型拿來做物理應用，而是可能催生出物理世界獨有的模型。這個模型從一開始就是基於物理世界更多模態設計的，專為機器人應用而生。它可能不能跟人對話，但能更好地執行任務。

總結起來還是三點：第一，物理智慧離不開感測器輸入的空間感知，靈波會從輸入端開始，讓機器人更好理解世界；第二，不管技術路線如何演進，資料是逃不開的，我們要把機器人需要的資料研究明白，甚至推動制定標準；第三，現在大家討論的技術路線都不是終局，未來一定會有物理世界獨有的模型出現。

“人人都能為機器人產生資料時，就是具身智慧的ChatGPT時刻”

李根：謝謝沈博如此不繞彎子，那麼具身大腦的發展節奏和里程碑是什麼？

沈宇軍：短期看有幾個變化。一是硬體會越來越收斂——不是形態收斂，而是供應鏈會收斂，變成模組化的東西，不再完全耦合在一起。硬體和感測器會越來越標準化。二是資料的標準也會越來越收斂。

這兩點收斂後，模型層面的技術路線爭論會越來越激烈。因為前兩樣定了，變數就在建模上。模型爭論一段時間後，正規化可能也會收斂。模型收斂之後，會反向推動硬體進行一次升級——那時的硬體已經不是上一代的了，而是專門為具身智慧打造的下一代硬體。就像這樣的週期：硬體震盪、收斂，然後模型迭代。這是可以期待的。

從產業落地角度看，也應該有一些期待。今年到明年，會有一些標杆案例讓模型真正投產，不再是demo，而是投入商業應用。2-3年後，這些案例會被批次複製，越來越多產業會用到模型。之後，機器人會嘗試以某種方式進入C端，可能不是所有事都能做，但能找到一個切入點。然後逐漸進入家庭，就像現在新能源車一樣普及開來。

李根：什麼時候會出現具身智慧的“ChatGPT時刻”？

沈宇軍：大模型的訓練是一個持續過程，從GPT 1.0、2.0到3.0。但Chat為什麼成為標誌性時刻？因為它真正走進了千家萬戶，人人都能用、都能體驗到。類比到具身智慧，什麼時候能讓大部分人參與進來，那就是我認為的具身智慧的ChatGPT時刻。

參與有兩個層面。最直觀的理解是具身智慧普惠到每個人——那個可能還比較遙遠。但在那之前還有一個階段：資料階段。就像現在大家開車，會為自動駕駛提供人類駕駛經驗一樣。

什麼時候能有一個資料標準，讓我們每天的行為都可以成為訓練機器人的資料？當人人都能為機器人產生資料的時候，在我看來，那就是具身智慧的ChatGPT時刻。

李根：你覺得這個還有多長時間？

沈宇軍：現在已經有好多做資料的公司出來了，只是流派不同。接下來一兩年，應該是做模型的公司和做資料的公司之間磨合的過程。因為資料標準一定是由模型來定義的，但模型提出的需求，硬體迭代也需要週期。經過一兩年磨合，大概在2028年左右，可以期待每個人都能成為具身智慧的資料提供方。

從那一刻開始，具身智慧的腳步會走得更快一些。

李根：那會不會同時出現類似安卓和iOS的作業系統？

沈宇軍：對，現在已經有這個區分了。靈波走的是通用大腦路線，也有一些公司比如特斯拉，既造自己的本體，也做自己的大腦——模型專門為本體服務。機器人就像手機一樣，大家不可能都用同一款，因為總有個性化訴求。所以我們比較堅定地走通用大腦模式。

李根：所以螞蟻靈波希望成為機器人時代的安卓系統？

沈宇軍：對，這是我們的一個美好願景。

李根：總結一下，AI 2.0下半場隨著物理世界開拓而展開，正規化從AIGC走向AIGA。資料是核心，技術路線正在收斂，2028年左右可能迎來具身大腦的收斂。螞蟻靈波志在成為其中的安卓。謝謝沈博！

沈宇軍：謝謝！

螞蟻靈波

一水

“五類人AI替代不了，企業做第二名最穩妥” | 崑崙萬維方漢@AIGC20262026-05-23

剛剛，馬斯克公開SpaceX招股書！2026-05-21

Cursor新模型，你怎麼還在套Kimi？馬斯克你怎麼還吆喝上了？？2026-05-19

AI第一金主黃仁勳：日均花掉20億2026-05-12